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本 书 基于 Linux 2.6.34 内 核 详细 介绍 了 Linux 内 核 系 统 ， 覆 盖 了 从 核心 内 核 系统 的 应 用 到 内 核 设计 与 
实现 等 各 方面 的 内 容 。 本 书 主 要 内 容 包 括 ; 进程 管理 、 进 程 调度 、 时 间 管 理 和 定时 吏 、 系 统 调用 接口 、 内 
存 寻 址 、 内 存 管理 和 页 缓存 、VFS、 内 核 同 步 以 及 调试 技术 等 。 同 时 本 书 也 涵盖 了 Linux 2.6 内 核 中 颇具 特 
色 的 内 容 ， 包 括 CFS 调度 程序 、 抢 占 式 内 棱 、 块 IO 层 以 及 LO 调度 程 序 等 。 本 书 采 用 理论 与 实践 相 结 全 
的 路 线 ， 能 够 带领 读者 快速 走 进 Linux 内 核 世 界 ， 真 正 开发 内 核 代 码 。 

本 书 适合 作为 高 等 院 校 操作 系统 课程 的 教材 或 参考 书 ， 也 可 供 相 关 技术 人 员 参 考 。 
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不 千 不 觉 涉足 Linux 内 核 已 经 十 多 个 年 关 了 ， 与 其 他 有 志 【 兴 趣 ) 于 此 的 朋友 一 样 ， 我 们 也 

经 历 了 学 习 一 实用 一 追踪 一 再 学 习 的 过 程 。 也 就 是 说 ， 我 们 也是 从 漫 无 边际 到 茫然 无 措 ， 再 到 初 
抠门 径 ， 转 而 觉得 心 有 威 威 下 这 一 路 走 下 来 的 。 其 中 甘苦 ， 犹 然 在 心 。 
”Linux 最 为 人 称道 的 莫 过 于 它 的 自由 精神 ， 所 有 源 代 码 唾 手 可 得 。 侯 捷 先 生 云 : “源码 在 前 ， 
了 无 秘密 。” 是 的 ， 但 是 我 们 在 面 对 它 的 时 候 ， 为 什么 却 总 是 因为 这 种 规模 和 层面 所 造就 的 陡峭 
学 习 曲 线 陷 人 困顿 昵 ? 很 多 朋友 就 此 倒 下 ， 纵 然 Linux 世界 繁花 似 锦 ， 纵 然 内 核 天 空 无 边 广 阔 ， 
但 是 ， 眼 前 的 迷雾 重重 ， 心 中 的 阴 全 又 怎 能 被 阳光 驱散 呢 ? 纵 有 压 心 壮志 ， 技 剑 四 顾 心 落 然 ， 脚 
下 路 在 何方 ? 

Linux 内 核 人 门 是 不 容易 ， 它 之 所 以 难 学 ， 在 于 庞大 的 规模 和 复杂 的 层面 。 规 模 一 大 ， 就 不 
易 现 出 本 来 面目 ， 浑 然 一 体 ， 自 然 不 容易 找到 着 手 之 处 ; 层面 一 多 ， 就 会 让 人 眼花 综 乱 ， 盘 根 错 
节 ， 怎 能 让 人 提纲 者 领 ? 

“如 果 有 这 样 一 本 书 ， 既 能 提纲 帮 领 ， 为 我 理 顺 思绪 ， 指 引 方 向 ， 同 时 又 能 照顾 小 节 ， 痢 
述 细 微 ， 帮 助 我 们 更 好 更 快 地 理解 STL 源码 ， 那 该 有 多 好 。” 和 下 岩 先 生 如 此 说 ， 虽 然 针 对 的 是 
C++， 但 道 出 的 是 研习 源码 的 人 们 共同 的 心声 。 然 而 ，Linux 源码 研究 的 方法 却 不 大 相同 。 这 还 
是 由 于 规模 和 层面 决定 的 。 比 如 说 ， 在 语言 学 习 中 ， 我 们 可 以 采取 小 步 快 跑 的 方法 ， 通 过 一 个 个 
小 程序 和 小 尝试 ， 就 可 以 取得 渐进 的 成 果 ， 就 能 从 新 技术 中 有 所 收获 。 而 掌握 Linux 呢 ? 如 果 没 
有 对 整体 的 把 握 ， 即 使 你 对 某 个 局 部 的 算法 、 技 术 或 是 代码 再 熟悉 ， 也 无 法 将 其 融 人 实用。 其 
实 ， 像 内 核 这 样 的 大 规模 的 软件 ， 正 是 编程 技术 施展 身手 的 舞台 (当然 ， 目 前 的 内 核 虽 然 包 含 了 
一 些 面 向 对 象 思 想 ， 但 还 不 能 让 C++ 一 展 身 手 )。 

那么 ， 我 们 能 不 能 做 点 什么 ， 让 Linux 的 内 核 学 习 过 程 更 符合 程序 员 的 习惯 呢 ? 

Robert Love 回答 了 这 个 问题 。Robert Love 是 一 个 狂热 的 内 核 爱 好 者 ， 所 以 他 的 想法 自然 贴 
近 程 序 员 。 是 的 ， 我 们 注定 要 在 对 所 有 核心 的 子 系 统 有 了 全 面 认 识 之 后 ， 才 能 开始 自己 的 实践 ， 
但 却 完 全 可 以 舍弃 细 枝 末 闻 ， 将 行李 压缩 到 最 小 ， 自 然 可 以 轻装 快走 ， 迅 速 进 人 动手 阶段 。 

因此 ， 相 对 于 Daniel P Bovet 和 Marco Cesati 的 内 核 巨 著 《Understanding the Linux Kernel》， 
它 少 了 五 分 细节 ; 相对 于 实践 经 典 《Linux Device Drivers》， 多 了 五 分 说 理 。 可 以 说 ， 本 书 填补 
了 Linux 内 核 理论 和 实践 之 间 的 礼 沟 ， 真 可 谓 “ 一 桥 飞 架 南 北 ， 天 斩 变 通途 ”。 

就 我 们 的 经 验 ， 内 核 初学 者 (不 是 编程 初学 者 ) 可 以 从 本 书 着手 ， 对 内 核 各 个 核心 子 系统 
有 个 整体 把 握 ， 包 括 它 们 提供 什么 样 的 服务 ， 为 什么 要 提供 这 样 的 服务 ， 又 是 怎样 实现 的 。 而 
且 ， 本 书 还 包含 了 Linux 内 核 开发 者 在 开发 时 需要 用 到 的 很 多 信息 ， 包 括 调试 技术 、 编 程 风 格 、 
注意 事项 等 。 在 消化 本 书 的 基础 上 ， 如 果 你 侧重 于 了 解 内 核 ， 可 以 进一步 研究 《Understanding 
the Linux Kernel》 和 源 代码 本 身 ; 如 果 你 侧重 于 实际 编程 ， 可 以 研读 《Linux Device Drivers》， 
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直接 开始 动手 工作 ; 如 果 你 想 有 一 个 轻松 的 内 核 学 习 和 实践 环 市 ， 请 访问 我 们 的 网 站 www. 
kernejltravelnet 。 

Linux 内 核 是 一 盘 永 不 停 昌 的 轮船 ， 它 将 驶 癌 何 方 我 们 并 不 知晓 ， 但 在 这 些 变化 的 背后 ， 总 
有 一 些 原理 是 恒定 不 变 的 ， 总 有 一 些 变化 是 我 们 想 知晓 的 ， 比 如 调度 程序 的 大 幅度 改进 ， 内 核 性 
能 的 不 断 提 升 ， 本 书 第 3 版 虽然 针对 的 是 较 新 的 2.6.34 Linux 内 核 版 本 ， 但 在 旧版 本 上 积累 的 知 
识 和 经 验 依 然 有 效 ， 而 新 增 内 容 将 使 读者 在 应 对 变化 了 的 内 核 代 码 时 更 加 从 容 。 

感谢 牛 涛 和 武 特 ， 他 们 在 第 2 版 和 第 3 版 差异 的 校对 中 花费 了 大 量 精力 。 感 谢 素 不 相识 的 网 
友 Cheng Renquan， 他 主动 承担 了 其 中 一 章 的 修订 。 还 要 感谢 苏 锦绣 、 黄 伟 、 王 泽 宇 、 赵 格 娟 、 
刘 周 平 、 周 永 飞 、 曹 江 峰 、 陈 白虎 和 孟 阿 龙 ， 他 们 参与 了 后 期 的 校对 和 查 错 补漏 。 

最 后 ， 特 别 感 谢 我 的 合作 者 康 华 ， 从 十 年 前 一 块 分 析 Linux 内 核 代码 到 邻 天， 他 对 技术 孜孜 
不 倦 的 追求 不 但 在 业界 赢得 声誉 ， 也 使 我 们 在 翻译 过 程 中 所 遇 到 的 技术 难点 和 蜂 雇 句子 被 一 一 迎 
轨 而 解 。 感 谢 合作 者 张波 ， 他 流 畅 有 趣 的 文笔 让 本 书 少 了 份 枯燥 ， 多 了 份 趣味 。 


陈 痢 君 
2010 年 10 月 
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随 着 Linux 内 核 和 Linux 应 用 程序 越 来 越 成 熟 ， 越 来 越 多 的 系统 软件 工程 师 涉足 Linux 开发 
和 维护 领域 。 他 们 中 有 些 人 纯粹 是 出 于 个 人 爱好 ， 有 些 人 是 为 Linux 公司 工作 ， 有 些 人 是 为 硬件 
厂商 做 开发 ， 还 有 一 些 是 为 内 部 项 目 工作 的 。 

但 是 所 有 人 都 必须 直面 一 个 问题 : 内 核 的 学 习 曲 线 变 得 越 来 越 长 ， 也 越 来 越 陡峭 。 系 统 规模 
不 断 扩 大 ， 复 杂 程 度 不 断 提 高 。 虽 然 现 在 的 内 核 开 发 者 对 内 核 的 掌 担 越 发 炉火纯青 ， 但 新 手 却 无 
法 跟 上 内 核发 展 的 步伐 ， 长 此 以 往 将 出 现 青黄不接 的 断层 。 

我 认为 这 种 新 老 钢 沟 已 经 成 为 内 核 质量 的 一 个 隐患 ， 而 且 问 题 将 继续 恶化 。 所 以 那些 真正 关 
心 内 核 的 人 已 经 开始 致力 于 扩大 内 核 开 发 群体 。 

解决 上 述 问 题 的 一 个 方法 是 尽量 保证 代码 简洁 : 接口 定义 合理 ， 代 码 风 格 一 致 ,“ 一 次 做 一 
件 事 ， 做 到 完美 ”等 。 这 也 就 是 Linus Torvalds 倡导 的 解决 办 法 。 

我 提倡 的 解决 办 法 是 对 代码 慷慨 地 加 上 注释 ， 即 能 够 让 读者 立刻 了 解 代码 开发 者 意图 的 文字 
(识别 意图 和 实现 之 间 差 异 的 工作 称 为 调试 。 如 果 意 图 不 明确 显然 调试 就 难以 进行 )。 

可 是 ， 即 使 有 注解 ， 也 没 办 法 清楚 地 展现 内 核 的 各 个 主要 子 系统 的 全 景 ， 说 明 它 们 到 底 要 做 
什么 。 那 么 ， 这 些 开 发 者 又 读 从 何 下 手 呢 ? 

由 文字 材料 来 说 明 这 些 在 起 步 阶段 就 该 理 解 的 材料 ， 其 实 是 最 合适 的 。 

Robert Love 的 贡献 就 在 于 此 ， 有 经 验 的 开发 者 可 以 通过 本 书 全 面 了 解 内 核子 系统 提供 的 服 
务 ， 同 时 还 可 以 了 解 这 些 服务 是 怎么 实现 的 。 对 不 少 人 来 说 ， 这 些 知识 就 已 经 足够 了 : 那些 好 奇 
的 人 ， 那 些 应 用 程序 开发 者 ， 那 些 想 对 内 核 的 设计 品 头 论 足 一 番 的 人 ， 都 有 足够 的 谈资 了 。 

但 是 学 习 本 书 同样 可 以 作为 那些 有 抱负 的 内 核 开 发 者 更 上 一 层 楼 的 契机 ， 可 以 帮 他 们 更 改 内 
核 代 码 以 达到 预定 的 目标 。 我 建议 有 抱负 的 开发 者 能 够 亲身 实践 : 理解 内 核 某 部 分 的 捷径 就 是 对 
它 做 些 修 改 ， 这 样 能 为 开发 者 揭示 仅仅 通过 看 内 核 代码 无 法 看 到 的 深层 机 理 。 

严肃 认真 的 内 核 开 发 者 应 读 加 入 开发 邮件 列表 ， 不 断 和 其 他 开发 者 交流 。 这 是 内 棱 开 发 者 相 
互 切 磋 和 并 肩 前 进 的 最 好 方法 。 而 Robert 在 书 中 对 内 核 生活 中 至 关 重 要 的 文化 和 技巧 都 做 了 精 
彩 介绍 。 

请 学 习 和 欣赏 Robert 的 书 吧 。 想 必 你 也 希望 能 精益 求 精 ， 继 续 探 索 ， 成 为 内 楼 开发 社区 中 
的 一 员 ， 那 么 首先 你 要 清楚 的 是 : 社区 欢迎 你 。 我 们 评价 和 衡量 一 个 人 是 根据 他 所 作 的 贡献 ， 当 
你 投身 于 Linux 时 ， 你 要 明白 : 虽然 你 仅仅 贡献 了 一 小 份 力 ， 但 马上 就 会 有 数 千 万 或 上 亿 人 受 
益 。 这 是 我 们 的 欢乐 之 源 ， 也 是 我 们 的 责任 之 本 。 


Andrew Morton 
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在 我 刚 开始 有 把 自己 的 内 核 开发 经 验 集 结 成 肛 ， 撰 写 一 本 书 的 念头 时 ， 我 其 实 也 觉得 有 点 头 
绪 繁 和 多， 不 知道 读 从 何 下 手 。 我 实在 不 想 落 人 传统 内 核 书籍 的 窜 白 ， 照 猫 画 虎 地 再 写 这 人 么 一 本 。 
不 错 ， 前 人 著述 备 英 ， 但 我 终归 是 要 写 出 点 儿 与 众 不 同 的 东西 来 ， 我 的 书 该 如 何 定位 ， 说 实话 ， 
这 确实 让 人 颇 费 思量 。 

后 来 ， 灵 感 终于 浮现 出 来 ， 我 意识 到 自己 可 以 从 一 个 全 新 的 视角 看 待 这 个 主题 。 开 发 内 棱 
是 我 的 工作 ， 同 时 也 是 我 的 嗜好 ， 内 核 就 是 我 的 垫 爱 。 这 些 年 来 ， 我 不 断 搜集 与 内 核 有 关 的 奇闻 
轶 事 ， 不 断 积 提 关键 的 开发 诀窍 ， 依 靠 这 些 日 积 月 累 的 材料 ， 我 可 以 写 一 本 关于 开发 内 核 读 做 什 
么 一 一 更 重要 的 是 一 一 不 该 做 什么 的 书籍 。 从 本 质 上 说 ,这 本 书 仍旧 是 描述 Linux 内 核 是 如 何 设 
计 和 实现 的 , .但 是 写法 却 另 辟 蹊 径 ， 所 提供 的 信息 更 倾向 于 实用 。 通 过 本 书 ， 你 就 可 以 做 一 些 内 
核 开 发 的 工作 了 一 一 并 且 是 使 用 正确 的 方法 去 做 。 我 是 一 个 注重 实效 的 人 ， 因 此 ， 这 是 一 本 实践 
的 书 ， 它 应 当 有 趣 、 易 读 且 有 用 。 

我 希望 读者 可 以 从 这 本 书 中 领略 到 更 多 Linux 内 核 的 精妙 之 处 〈 写 出 来 的 和 设 写 出 来 的 )， 
也 希望 读者 敢于 从 阅读 本 书 和 读 内 核 代码 开始 跨越 到 开始 党 试 开 发 可 用 、 可 靠 且 清晰 的 内 核 代 
码 。 当 然 如 果 你 仅仅 是 兴致 所 至 ， 读 书 自 娱 ， 那 也 希望 你 能 从 中 找到 乐趣 。 

从 第 1 版 到 现在 ， 又 过 了 一 段 时 间 ， 我 们 再 次 回 到 本 书 ， 修 补遗 憾 。 本 版 比 第 1 版 和 第 2 版 
内 容 更 丰富 : 修订 、 补 充 并 增加 了 新 的 内 容 和 章节 ， 使 其 更 加 完善 。 本 版 融合 了 第 2 版 以 来 内 
核 的 各 种 变化 。 更 值得 一 提 的 是 ，Linux 内 核 联盟 日 做 出 决定 ， 近 期 内 不 进行 2.7 版 内 核 的 开发 ， 
于 是 ， 内 核 开 发 者 打算 继续 开发 并 稳定 2.6 版 。 这 个 决定 意味 深长 ， 而 本 书 从 中 的 最 大 受益 就 是 
在 2.6 版 上 可 以 稳定 相当 长 时 间 。 随 着 内 核 的 成 熟 ， 内 核 “ 快 照 ” 才 有 机 会 能 维持 得 更 久远 一 
些 。 本 书 可 作为 内 核 开发 的 规范 文档 ， 既 认识 内 核 的 过 去 ， 也 着 眼 于 内 核 的 未 来 。 

使 用 这 本 书 

开发 Linux 内 核 不 需要 天 赋 异 乘 ， 不 需要 有 什么 魔法 ， 连 Unix 开发 者 普遍 长 着 的 络 腮 胡 子 
都 不 一 定 要 有 。 内 核 虽 然 有 一 些 有 趣 并 且 独 特 的 规则 和 要 求 ， 但 是 它 和 其 他 大 型 软件 项 目 相 比 ， 
并 没有 太 大 差别 。 像 所 有 的 大 型 软件 开发 一 样 ， 要 学 的 东西 确实 不 少 ， 但 是 不 同 之 处 在 于 数量 上 
的 积累 ， 而 非 本 质 上 的 区 别 。 

认真 阅读 源码 非常 有 必要 ，Linux 系统 代码 的 开放 性 其 实 是 弥 足 珍贵 的 ， 不 要 无 动 于 囊 地 将 
它 搁 置 一 边 ， 浪 费 了 大 好 资源 。 实 际 上 就 是 读 了 代码 还 远 远 不 够 昵 ， 你 应 该 钉 研 并 尝试 着 动手 改 
动 一 些 代 码 。 寻 找 一 个 bug 然后 去 修改 它 ， 改 进 你 的 硬件 设备 的 驱动 程序 。 增 加 新 功能 ， 即 使 看 





日 ”这 一 决定 是 在 加 拿 大 湿 太 华 2004 年 夏季 举办 的 Linux 内 棱 年 度 开 发 者 大 会 上 做 出 的 。 
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起 来 微不足道 ， 寻 找 痛 痒 之 处 并 解决 。 只 有 动手 写 代 码 才 能 真正 融会 贯通 。 


内 核 版 本 


本 书 基 于 Linux 2.6 内 核 系列 。 它 并 不 涵盖 早期 的 版 本 ， 当 然 也 有 一 些 例外 。 比 如 ， 我 们 会 
讨论 2.4 系列 内 核 中 的 一 些 子 系统 是 如 何 实现 的 ， 这 是 因为 简单 的 实现 有 助 于 传授 知识 。 特 别 说 
明 的 是 ， 本 书 介绍 的 是 最 新 的 Linux 2.6.34 内 核 版 本 。 尽 管内 核 总 在 不 断 更 新 ， 任 何 努力 也 难以 
捕获 这 样 一 只 永 不 停息 的 猛 曾 ， 但 是 本 书 力图 适合 于 新 旧 内 核 的 开发 者 和 用 户 。 

虽然 本 书 讨论 的 是 2.6.34 内 核 ， 但 我 也 确保 了 它 同样 适用 于 2.6.32 内 核 。 后 一 个 版 本 往往 
锌 各 个 Linux 发 行 版 本 奉 为 “企业 版 ”内 核 ， 所 以 我 们 可 以 在 各 种 产品 线 上 见 到 其 身影 。 该 版 本 
确实 已 经 开发 了 数 年 《类 似 的 “长 线 ” 版 本 还 有 2.6.9、2.6.18 和 2.6.27 等 )。 


读者 范围 

本 书 是 写 给 那些 有 志 于 理解 Linux 内 核 的 软件 开发 者 的 。 本 书 并 不 逐 行 逐 字 地 注解 内 核 源 
代码 ， 也 不 是 指导 开发 驱动 程序 或 是 内 核 API 的 参考 手册 〈 如 果 存 在 标准 的 内 核 API 的 话 )。 
本 书 的 初 囊 是 提供 足够 多 的 关于 Linux 内 核 设计 和 实现 的 信息 ， 希 望 读 过 本 书 的 程序 员 能 够 拥 
有 较为 完备 的 知识 ， 可 以 真正 开始 开发 内 核 代码 。 无 论 开发 内 核 是 为 了 兴趣 还 是 为 了 赚钱 ， 我 
都 希望 能 够 带领 读者 快速 走 进 Linux 内 核 世 界 。 本 书 不 但 介绍 了 理论 而 且 也 讨论 了 具体 应 用 ， 
可 以 满足 不 同 读者 的 需要 。 全 书 紧 紧 围 绕 着 理论 联系 实践 ， 并 非 一 味 强 调理 论 或 是 实践 。 无 论 
你 研究 Linux 内 核 的 动机 是 什么 ， 我 都 希望 这 本 书 都 能 将 内 核 的 设计 和 实现 分 析 清楚 ， 起 到 抛 
砖 引 玉 的 作用 。 

因此 ， 本 书 和 覆盖 了 从 核心 内 核 系 统 的 应 用 到 内 核 设计 与 实现 等 各 方面 的 内 容 。 我 认为 这 点 很 
重要 ,值得 花 工夫 讨论 。 例 如 ,第 8 章 讨论 的 是 所 谓 的 下 半 部 机 制 。 本 章 分 别 讨论 了 内 核 下 半 部 
机 制 的 设计 和 实现 〈 核 心 内 核 开 发 者 或 者 学 者 会 感 兴趣 )， 随 即便 介绍 了 如 何 使 用 内 核 提 供 的 接 
口 实现 你 自己 的 下 半 部 (这 对 设备 驱动 开发 者 可 能 很 有 用 处 )。 其 实 ， 我 认为 上 述 两 部 分 内 容 是 
相得益彰 的 ， 虽 然 核心 内 核 开 发 者 主要 关注 的 问题 是 内 核 内 部 如 何 工 作 ， 但 是 也 应 该 清楚 如 何 使 
用 接口 ; 同样 ， 如 果 设 备 驱 动 开 发 者 了 解 了 接口 背后 的 实现 机 制 ， 自 然 也 会 受益 菲 线 。 

这 好 比 学 习 茶 些 库 的 API 函数 与 研究 该 库 的 具体 实现 。 初 看 ， 好 像 应 用 程序 开发 者 仅仅 需 
楼 理解 API 一 一 我 们 被 灌输 的 思想 是 ， 应 该 像 看 待 黑 盒子 一 样 看 待 接 口 。 另 外 ， 库 的 开发 者 也 只 
关心 库 的 设计 与 实现 ， 但 是 我 认为 双方 都 应 该 花 时 间 相 互 学 习 。 能 深刻 了 解 操作 系统 本 质 的 应 用 
程序 开发 者 无 疑 可 以 更 好 地 利用 它 。 同 样 ， 库 开发 者 也 决 不 应 该 脱离 基于 此 库 的 应 用 程序 ， 埋 头 
开发 。 因 此 ， 我 既 讨 论 了 内 核子 系统 的 设计 ， 也 讨论 了 它 的 用 法， 希望 本 书 能 对 核心 开发 者 和 应 
用 开发 者 都 有 用 。 

我 假设 读者 已 经 掌握 了 C 语言 ， 而 且 对 Linux 比较 熟悉 。 如 果 读 者 还 具有 与 操作 系统 设计 
相关 的 经 验 和 其 他 计算 机 科学 的 概念 就 更 好 了 。 当 然 ， 我 也 会 尽 可 能 多 地 解释 这 些 概念 ， 但 如 果 
你 仍然 不 能 理解 这 些 知 识 的话 ， 请 看 本 书 最 后 参考 资料 中 给 出 的 一 些 关 于 操作 系统 设计 方面 的 经 
典 书 籍 。 

本 书 很 适合 在 大 学 中 作为 介绍 操作 系统 的 辅助 教材 ， 与 介绍 操作 系统 理论 的 书 相 搭配 。 对 于 
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大 学 高 年 级 课程 或 者 研究 生 课程 来 说 ， 可 直接 使 用 本 书 作为 教材 。 
第 3 版 致谢 
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第 ( 们 ) 章 
Linux 内 核 简介 


第 1 章 将 带 我 们 从 Unix 的 历史 视角 来 认识 Linux 内 核 与 Linux 操作 系统 的 前 世 今 生 。 今 
天 Unix 系统 业已 演化 成 一 个 具有 相似 应 用 程序 编程 接口 (API)， 并 且 基 于 相似 设计 理念 的 操作 
系统 家 族 。 但 它 又 是 一 个 别 具 特 色 的 操作 系统 ， 从 萌芽 到 现在 已 经 有 40 余年 的 历史 。 若 要 了 解 
Linux， 我 们 必须 首先 认识 Unix 系统 。 


1.1 Unix 的 历史 


Unix 虽然 已 经 使 用 了 40 年 ， 但 计算 机 科学 家 仍然 认为 它 是 现存 操作 系统 中 最 强大 和 最 优秀 
的 系统 。 从 1969 年 诞生 以 来 ， 由 Dennis Ritchie 和 Ken Thompson 的 灵感 火花 点 亮 的 这 个 Unix 
产物 已 经 成 为 一 种 传奇 ， 它 历经 了 时 间 的 考验 依然 声名 不 坠 。 

Unix 是 从 贝尔 试验 室 的 一 个 失败 的 多 用 户 操作 系统 Multics 中 涅 过 而 生 的 。Multics 项 目 被 
终止 后 ， 贝 尔 实验 室 计算 科学 研究 中 心 的 人 们 发 现 自己 处 于 一 个 没有 交互 式 操 作 系 统 可 用 的 境 
地 。 在 这 种 情况 下 ，1969 年 的 夏天 ， 贝 尔 实验 室 的 程序 员 们 设计 了 一 个 文件 系统 原型 ， 而 这 个 
原型 最 终 发 展演 化 成 了 Unix。Thompson 首先 在 一 台 无 人 问津 的 PDP-7 型 机 上 实现 了 这 个 全 新 的 
操作 系统 。1971 年 ，Unix 被 移植 到 PDP-11 型 机 中 。1973 年 ， 整 个 Unix 操作 系统 用 C 语言 进行 
了 重 写 ， 正 是 当时 这 个 并 不 太 引 人 注目 的 举动 ， 给 后 来 Unix 系统 的 广泛 移植 铺 平 了 道路 。 第 一 
个 在 贝尔 实验 室 以 外 被 广泛 使 用 的 Unix 版 本 是 第 6 版 ， 称 为 V6。 

许多 其 他 的 公司 也 把 Unix 移植 到 新 的 机 型 上 上。 伴随 着 这 些 移植 ， 开 发 者 们 按照 自己 的 方 
式 不 断 地 增强 系统 的 功能 ， 并 由 此 产生 了 若干 变 体 。1977 年 ， 贝 尔 实验 室 综合 各 种 变 体 推出 了 
Unix System IH ; 1983 年 AT&T 推出 了 System V 中。 

由 于 Unix 系统 设计 简洁 并 且 在 发 布 时 提供 源 人 代码， 所 以 许多 其 他 组 织 和 团体 都 对 它 进行 
了 进一步 的 开发 。 加 州 大 学 伯克利 分 校 便 是 其 中 影响 最 大 的 一 个 。 他 们 推出 的 变 体 叫 Berkeley 
Software Distributions (BSD)。 伯 克利 的 第 一 个 Unix 演化 版 是 1977 年 推出 的 1BSD 系统 ， 它 的 
实现 基于 贝尔 实验 室 的 Unix 版 本 ， 不 但 在 其 上 加 入 了 许多 修正 补丁 ， 而 且 还 集成 了 不 少 额外 的 
软件 ; 1978 年 伯克利 继续 推出 了 2BSD 系统 ， 其 中 包含 我 们 如 今 仍 在 使 用 的 csh 、vi 等 应 用 软 
件 。 而 伯克利 真正 独立 开发 的 Unix 系统 是 于 1979 年 推出 的 3BSD 系统 ， 该 系统 引入 了 一 系列 令 
人 振 奋 的 新 特性 ， 支 持 虚拟 内 存 便 是 其 一 大 亮点 。 在 3BSD 以 后 ， 伯 克利 又 相继 推出 了 4BSD 系 
列 ， 包 括 4.0BSD、4.1BSD、4.2BSD、4.3BSD 等 众多 分 支 。 这 些 Unix 演化 版 实现 了 任务 管理 、 


日 ”什么 是 系统 IV 呢 ? 它 是 一 个 内 部 开发 版 本 。 


2 禹 了 全 


换 页 机 制 、TCP/P 等 新 的 特性 。 最 终 伯 殉 利 大 学 在 1994 年 重 写 了 虚拟 内 存 子 系统 (VM)， 并 
推出 了 伯克利 Unix 系统 的 最 终 官方 版 ， 即 我 们 熟知 的 4.4BSD。 现 在 ， 多 亏 了 BSD 的 开放 性 许 
可 ，BSD 的 开发 才 得 以 由 Darwin、FreeBSD、NetBSD 和 OpenBSD 继续 。 

20 世纪 80 和 90 年代， 许多 工作 站 和 服务 器 厂商 推出 了 他 们 自己 的 Unix， 这 些 Unix 大 部 
分 是 在 AT&T 或 伯克利 发 行 版 的 基础 上 加 上 一 些 福 足 他 们 特定 体系 结构 需要 的 特性 。 这 其 中 就 
包括 Digital 的 Tru64、HP 的 HP-UX、IBM 的 AIX、Sequent 的 DYNIXptx、SGI 的 IRIX 和 Sun 
的 Solaris 和 SunOS。 

由 于 最 初 一 流 的 设计 和 以 后 多 年 的 创新 与 逐步 提高 ，Unix 系统 成 为 一 个 强大 、 健 壮 和 稳 
定 的 操作 系统 。 下 面 的 几 个 特点 是 使 Unix 强大 的 根本 原因 。 首 先 ，Unix 很 简洁 : 不 像 其 他 动 
辐 提 供 数 千 个 系统 调用 并 且 设 计 目 的 不 明确 的 系统 ，Unix 仅仅 提供 几 百 个 系统 调用 并 且 有 一 个 
非常 明确 的 设计 目的 。 第 二 ， 在 Unix 中 ， 所 有 的 东西 者 被 当做 文件 对 待 口 。 这 种 抽象 使 对 数据 
和 对 设备 的 操作 是 通过 一 套 相 同 的 系统 调用 接口 来 进行 的 : open0、readO0、write(0、lseekO 和 
close()。 第 三 ，Unix 的 内 村 和 相关 的 系统 工具 软件 是 用 C 语言 编写 而 成 一 一 正 古 这 个 特 上 后 使 得 
Unix 在 各 种 硬件 体系 架构 面前 都 具备 令 人 惊异 的 移植 能 力 ， 并 且 使 广大 的 开发 人 员 很 容易 就 能 
接受 它 。 第 四 ，Unix 的 进程 创建 非常 迅速 ， 并 且 有 一 个 非常 独特 的 fork() 系统 调用 。 最 后 ，Unix 
提供 了 一 套 非 常 简 单 但 又 很 稳定 的 进程 间 通 信 元 语 ， 快 速 简洁 的 进程 创建 过 程 使 Unix 的 程序 把 
目标 放 在 一 次 执行 保质 保 量 地 完成 一 个 任务 上 ， 而 简单 稳定 的 进程 间 通 信 机 制 又 可 以 保证 这 些 单 
一 目的 的 简单 程序 可 以 方便 地 组 合 在 一 起 ， 去 解决 现实 中 变 得 越 来 越 复 杂 的 任务 。 正 是 由 于 这 种 
策略 和 机 制 分 离 的 设计 理念 ， 确 保 了 Unix 系统 具备 清晰 的 层次 化 结构 。 

今天 ，Unix 已 经 发 展 成 为 一 个 支持 抢占 式 多 任务 、 多 线程 、 虚 拟 内 存 、 换 页 、 动 态 链 接 和 
TCP/IP 网 络 的 现代 化 操作 系统 。Umnix 的 不 同 变 体 被 应 用 在 大 到 数 百 个 CPU 的 集群 ， 小 到 帐 入 式 
设备 的 各 种 系统 上 。 尽 管 Unix 已 经 不 再 被 认为 是 一 个 实验 室 项 目 了 ， 但 它 仍然 伴随 着 操作 系统 
设计 技术 的 进步 而 继续 成 长 ， 人 们 仍然 可 以 把 它 作为 一 个 通用 的 操作 系统 来 使 用 。 

Unix 的 成 功 归 功 于 其 简洁 和 一 社 的 设计 。 它 能 拥有 今天 的 能 力 和 成 就 应 该 归功 于 Dennis 
Ritchie、Ken Thompson 和 其 他 早期 设计 人 员 的 最 初 决 策 ， 同 时 也 要 归功 于 那些 永 不 妥协 于 成 见 ， 
从 而 赋予 Unix 无 穷 活 力 的 设计 抉择 。 


1.2 追寻 Linus 足迹 ; Linux 简介 

1991 年 ，Linus Torvalds 为 当时 新 推出 的 、 使 用 Intel 80386 微 处 理 器 的 计算 机 开发 了 一 款 全 
新 的 操作 系统 ，Linux 由 此 诞生 。 那 时 ， 作 为 芬兰 赫尔辛基 大 学 的 一 名 学 生 的 Linus， 正 为 不 能 
随心 所 欲 使 用 强大 而 自由 的 Unix 系统 而 苦恼 。 对 Torvalds 而 言 ， 使 用 当时 流行 的 Microsoft 的 
DOS 系统 ， 除 了 玩 波斯 王子 游戏 外 ， 别 无 他 用 。 Linus 热衷 使 用 于 Minix， 一 种 教学 用 的 廉价 
Unix， 但 是 ， 他 不 能 轻易 修改 和 发 布 该 系统 的 源 代码 (由 于 Minix 的 许可 证 )， 也 不 能 对 Minix 
开发 者 所 作 的 设计 轻举妄动 ， 这 让 他 耿耿 于 怀 并 由 此 对 作者 的 设计 理念 感到 失望 。 


日 ”好 吧 ， 我 承认 ， 不 是 所 有 一 一 但 是 确实 很 多 东西 都 被 表示 成 文件 。Sockets 就 是 一 个 典型 的 例外 。 不 过 最 近 有 
不 少 尝试 ， 比 如 贝尔 实验 室 中 的 Unix 后 继 项 目 ，Plan9 等 都 在 试图 将 系统 全 方位 地 以 文件 形式 实现 。 
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Linus 像 任 何 一 名 生机 勃勃 的 大 学 生 一 样 决心 走出 这 种 困境 : 开发 自己 的 操作 系统 。 他 开始 
写 了 一 个 简单 的 终端 仿真 程序 ， 用 于 连接 到 本 校 的 大 型 Unix 系统 上 。 他 的 终端 仿真 程序 经 过 一 
学 年 的 研发 ， 不 断 改进 和 完善 。 不 久 ，Linus 手 上 就 有 了 虽 不 成 熟 但 五 脏 俱全 的 Unix。1991 年 年 
底 ， 他 在 Intemet 上 发 布 了 早期 版 本 。 

从 此 Linux 便 起 航 了 ， 最 初 的 Linux 发 布 很 快 赢得 了 众多 用 户 。 而 实际 上 ， 它 成 功 的 重要 因 
素 是 ，Linux 很 快 吸引 了 很 多 开发 者 、 黑 客 对 其 代码 进行 修改 和 完善 。 由 于 其 许可 证 条 款 的 约定 ， 
Linux 迅速 成 为 多 人 的 合作 开发 项 目 。 

到 现在 ，Linux 早已 羽翼 丰满 ， 它 被 广泛 移植 到 Alpha、ARM、PowerPC、SPARC、x86-64 
等 许多 其 他 体系 结构 之 上 上。 如今 Linux 既 被 安装 在 最 轻 小 的 消费 电子 设备 上 ， 比 如 手表 ， 同 时 也 
在 服务 规模 最 庞大 的 服务 数据 中 心 上 ， 如 超级 计算 机 集群 。 今 天 ，Linux 的 商业 前 景 也 越 来 越 被 
看 好 ， 不 管 是 新 成 立 的 Linux 专业 公司 Red Hat 还 是 闻名 遐 途 的 计算 巨头 IJBM， 都 提供 林林总总 
的 解决 方案 ， 从 藤 人 式 系 统 、 桌 面 环境 一 直到 服务 严 。 

Linux 是 类 Unix 系统 ， 但 它 不 是 Unix。 需 要 说 明 的 是 ， 尽 管 Linux 借鉴 了 Unix 的 许多 设计 
并 且 实 现 了 Unix 的 API (由 Posix 标 惟 和 其 他 Single Unix Specification 定义 的 )， 但 Linux 没有 
像 其 他 Unix 变种 那样 直接 使 用 Unix 的 源 代 码 。 必 要 的 时 候 ， 它 的 实现 可 能 和 其 他 各 种 Unix 的 
实现 大 相 径 庭 ， 但 它 设 有 抛弃 Unix 的 设计 目标 并 且 保 证 了 应 用 程序 编程 接口 的 一 致 。 

Linux 是 一 个 非 商业 化 的 产品 ， 这 是 它 最 让 人 感 兴趣 的 特征 。 实 际 上 Linux 是 一 个 互联 网 上 
的 协作 开发 项 目 。 尽 管 Linus 被 认为 是 Linux 之 父 ， 并 且 现 在 依然 是 一 个 内 核 维 护 者 ， 但 开发 工 
作 其 实 是 由 一 个 结构 松散 的 工作 组 协力 完成 的 。 事 实 上 ， 任 何人 都 可 以 开发 内 核 。 和 该 系统 的 
大 部 分 一 样 ，Linux 内 核 也 是 自由 《〈 公 开 ) 软件 日 .当然 ， 也 不 是 无 限 自由 的 。 它 使 用 GNU 的 
General Public License (GPL) 第 2 版 作为 限制 条 协 。 这 样 做 的 结果 是 ， 你 可 以 自由 地 获取 内 核 
代码 并 随意 修改 它 ， 但 如 果 你 希望 发 布 你 修改 过 的 内 核 ， 你 也 得 保证 让 得 到 你 的 内 核 的 人 同时 享 
有 你 曾经 享受 过 的 所 有 权利 ， 当 然 ， 包 括 全 部 的 源 代码 只 。 

Linux 用 途 广 省， 包含 的 东西 也 名 目 繁多 。Linux 系统 的 基础 是 内 核 、C 库 、 工 具 集 和 系统 
的 基本 工具 ， 如 登录 程序 和 Shell。Linux 系统 也 支持 现代 的 X Windows 系统 ， 这 样 就 可 以 使 用 完 
整 的 图 形 用 户 桌 面 环 境 ， 如 GNOME。 可 以 在 Linux 上 使 用 的 商业 和 自由 软件 数 以 千 计 。 在 这 本 书 
以 后 的 部 分 ， 当 我 使 用 Linux 这 个 词 时 ， 我 其 实说 的 是 Linux 内 核 。 在 容易 引起 混 请 的 地 方 ， 我 会 
具体 说 明 到 底 我 想 说 的 是 整个 系统 还 是 内 核 。 一 般 情 况 下 ，Linux 这 个 词汇 主要 还 是 指 内 核 。 


1.3 ”操作 系统 和 内 核 简介 


由 于 一 些 现行 商业 操作 系统 日 趋 庞杂 及 其 设计 上 的 缺陷 ， 操 作 系统 的 精确 定义 并 役 有 一 个 统 
一 的 标准 。 许 多 用 户 把 他 们 在 显示 器 屏幕 上 看 到 的 东西 理所当然 地 认为 就 是 操作 系统 。 通 常 ， 当 


昌 谁 有 兴趣 了 解 free VS open 的 论战 ， 请 参见 http://www.fsforg and http://www.opensource.org. 

全 ”如果 你 没有 读 过 GNU GPL 2.0， 你 最 好 还 是 先 读 读 它 吧 。 内 棱 代 码 树种 的 . COPYING 文件 就 是 它 的 一 份 乒 
风 。 人 和 你 也 可 以 在 http://www.fsf.org 找到 它 。 注 意 最 新 的 GNU GPL 已 经 是 3.0 版 本 了 ， 但 内 棱 开 发 者 们 仍然 决 
定 继续 使 用 2.0 版 本 。 


4 萌 了 间 


然 在 本 书 中 也 这 人 么 认为 ， 操 作 系 统 是 指 在 整个 系统 中 负责 完成 最 基本 功能 和 系统 管理 的 那些 部 
分 。 这 些 部 分 应 该 包括 内 核 、 设 备 驱 动 程序 、 启 动 引 导 程 序 、 命 令 行 Shell 或 者 其 他 种 类 的 用 户 
界面 、 基 本 的 文件 管理 工具 和 系统 工具 。 这 些 都 是 必 不 可 少 的 东西 一 一 别 以 为 只 要 有 浏览 器 和 播 
放 占 就 行 了。 系统 这 个 词 其 实 包 含 了 操作 系统 和 所 有 运行 在 它 之 上 的 应 用 程序 。 

当然 ， 本 书 的 主题 是 内 核 。 用 户 界面 是 操作 系统 的 外 在 表象 ， 内 核 才 是 操作 系统 的 内 在 村 
心 。 系 统 其 他 部 分 必须 依靠 内 核 这 部 分 软件 提供 的 服务 ， 像 管理 硬件 设备 、 分 配 系 统 资源 等 。 
由 核 有 时 候 馈 称 作 征管 理 者 或 者 是 操作 系统 核心 。 通 前 一 个 内 核 由 负责 响应 中 断 的 中 断 服务 程 
订 ， 负 责 管 理 多 个 进程 从 而 分 享 处 理 器 时 间 的 调度 程序 ， 人 负责 管理 进程 地 址 空间 的 内 存 管理 程 
序 和 网 络 、 进 程 间 通信 等 系统 服务 程序 共同 组 成 。 对 于 提供 保护 机 制 的 现代 系统 来 说 ， 内 核 独 
立 于 普通 应 用 程序 ， 它 一 般 处 于 系统 态 ， 拥 有 受 保护 的 内 存 空间 和 访问 硬件 设备 的 所 有 权限 。 
这 种 系统 态 和 被 保护 起 来 的 内 存 空间 ， 统 称 为 内 核 空间 。 相 对 的 ， 应 用 程序 在 用 户 空间 执行 。 
它们 只 能 看 到 允许 它们 使 用 的 部 分 系统 资源 ， 并 且 只 使 用 某 些 特定 的 系统 功能 ， 不 能 直接 访问 
硬件 ， 也 不 能 访问 内 核 划 给 别人 的 内 存 范 围 ， 还 有 其 他 一 些 使 用 限制 。 当 内 核 运 行 的 时 候 ， 系 
统 以 内 核 态 进入 内 核 空间 执行 。 而 执行 一 个 普通 用 户 程 序 时 ， 系 统 将 以 用 户 态 进入 以 用 户 空 间 
执行 。 

人 在 系 统 中 运行 的 应 用 程序 通过 系统 调用 来 与 内 核 通信 ( 见 图 1-1)。 应 用 程序 通常 调用 库 函 
数 ( 比 如 C 库 函 数 ) 再 由 库 消 数 通 过 系统 调用 界面 ， 让 内 核 代 其 完成 各 种 不 同 任务 。 一 些 库 调 
用 提供 了 系统 调用 不 具备 的 许多 功能 ， 在 那些 较为 复杂 的 函数 中 ， 调 用 内 核 的 操作 通常 只 是 整 
个 工作 的 一 个 步骤 而 已 。 举 个 例子 ， 拿 printfl) 函数 来 说 ， 它 提供 了 数据 的 缓存 和 格式 化 等 操作 ， 
而 调用 write() 函数 将 数据 写 到 控制 台 上 只 不 过 是 其 中 的 一 个 动作 罢了 。 不 过 ， 也 有 一 些 库 函 数 
和 系统 岗 用 就 古 一 一 对 应 的 关系 ， 比 如 ，open() 库 函 数 除了 调用 open() 系统 调用 之 外 ， 几 平 什么 
也 不 做 。 还 有 一 些 C 库 函 数 ， 像 strcpyO0， 根 本 就 不 需要 直接 调用 系统 级 的 操作 。 当 一 个 应 用 程 
序 执行 一 条 系统 调用 ， 我 们 说 内 核 正在 代 其 执行 。 如 果 进 一 步 解 释 ， 在 这 种 情况 下 ， 应 用 程序 被 
称 为 通过 系统 调用 在 内 核 空 间 运 行 ， 而 内 核 被 称 为 运行 于 进程 上 下 文中 。 这 种 交互 关系 一 一 应 用 
程序 通过 系统 调用 界面 陷 人 内 核 一 一 是 应 用 程序 完成 其 工作 的 基本 行为 方式 。 

内 核 还 要 负责 管理 系统 的 硬件 设备 。 现 有 的 几乎 所 有 的 体系 结构 ， 包 括 全 部 Linux 支持 的 体 
系 结构 ， 都 提供 了 中 断 机 制 。 当 硬件 设备 想 和 系统 通信 的 时 候 ， 它 首先 要 发 出 一 个 异步 的 中 断 
信号 去 打 断 处 理 器 的 执行 ， 继 而 打 断 内 核 的 执行 。 中 断 通常 对 应 着 一 个 中 断 号 ， 内 核 通 过 这 个 
中 断 号 查找 相应 的 中 断 服务 程序 ， 并 调用 这 个 程序 响应 和 处 理 中 断 。 举 个 例子 ， 当 你 敲 击 键盘 
的 时 候 ， 键 盘 控 制 器 发 送 一 个 中 断 信 号 告知 系统 ， 键 盘 缓冲 区 有 数据 到 来 。 内 核 注 意 到 这 个 中 
断 对 应 的 中 断 号 ， 调 用 相应 的 中 断 服务 程序 。 该 服务 程序 处 理 键盘 数据 然后 通知 键盘 控制 器 可 
以 继续 输入 数据 了 。 为 了 保证 同步 ， 内 核 可 以 停 用 中 止 一 一 既 可 以 停止 所 有 的 中 断 也 可 以 有 选 
择 地 停止 某 个 中 断 号 对 应 的 中 断 。 许 多 操作 系统 的 中 断 服务 程序 ， 包 括 Linux 的 ， 都 不 在 进程 
上 下 文中 执行 。 它 们 在 一 个 与 所 有 进程 都 无 关 的 、 专 门 的 中 断 上 下 文中 运行 。 之 所 以 存在 这 样 
一 个 专门 的 执行 环境 ， 就 是 为 了 保证 中 断 服务 程序 能 够 在 第 一 时 间 响 应 和 处 理 中 断 请 求 ， 然 后 
快速 地 退出 。 

这 些 上 下 文 代表 者 内 核 活动 的 范围 。 实 际 上 我 们 可 以 将 每 个 处 理 器 在 任何 指定 时 间 点 上 的 活 
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动 必 然 概括 为 下 列 三 者 之 一 : 


应 用 程序 2 


应 用 程序 1 









用 户 空 间 





，》> 内 核 空间 
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设备 驱动 程序 


图 1-1 应 用 程序 、 内 核 和 硬件 的 关系 


* 运行 于 用 户 空间 ， 执 行 用 户 进 程 。 

* 运行 于 内 核 空间 ， 处 于 进程 上 下 文 ， 代 表 某 个 特定 的 进程 执行 。 

* 运行 于 内 核 空间 ， 处 于 中 断 上 下 文 ， 与 任何 进程 无 关 ， 处 理 某 个 特定 的 中 断 。 

以 上 所 列 几乎 包括 所 有 情况 ， 即 使 边 边 角 角 的 情况 也 不 例外 ， 例 如 ， 当 CPU 空闲 时 ， 内 核 
就 运行 一 个 空 进程 ， 处 于 进程 上 下 文 ， 但 运行 于 内 核 空间 。 


1.4 Linux 内 核 和 传统 Unix 内 核 的 比较 


由 于 所 有 的 Unix 内 核 都 同宗 同 源 ， 并 且 提 供 相 同 的 API， 现 代 的 Unix 内 核 存 在 许多 设计 上 
的 相似 之 处 (请 看 参考 目录 中 我 所 推荐 的 关于 传统 Unix 内 核 设计 的 相关 书籍 )。Unix 内 核 几 平 
训 无 例外 的 都 是 一 个 不 可 分 割 的 静态 可 执行 库 。 也 就 是 说 ， 它 们 必须 以 巨大 、 单 独 的 可 执行 块 
的 形式 在 一 个 单独 的 地 址 空间 中 运行 。Unix 内 核 通常 需要 硬件 系统 提供 页 机 制 (MMU) 以 管理 
内 存 。 这 种 页 机 制 可 以 加 强 对 内 存 空 间 的 保护 ， 并 保证 每 个 进程 都 可 以 运行 于 不 同 的 虚 地 址 空间 
上 。 初 期 的 Linux 系统 也 需要 MMU 支持 ， 但 有 一 些 特 殊 版 本 并 不 依赖 于 此 。 这 无 疑 是 一 个 简洁 
的 设计 ， 因 为 它 可 以 使 Linux 系统 运行 在 没有 MMU 的 小 型 嵌 人 系统 上 。 不 过 现实 之 中 ， 即 便 很 
简单 的 仍 人 系统 都 开始 具备 内 存 管理 单元 这 种 高 级 功能 了 。 本 书 中 ， 我 们 将 重点 关注 支持 MMU 
的 Linux 系统 。 


单 内 核 与 微 内 核 设计 之 比较 

操作 系统 内 核 可 以 分 为 两 大 阵营 : 单 内 核 和 微 内 核 (第 三 阵营 是 外 内 核 ， 主 要 用 在 科研 
系统 中 )。 

单 内 核 是 两 大 阵营 中 一 种 较为 简单 的 设计 ， 在 1980 年 之 前 ， 所 有 的 内 核 都 设计 成 单 内 
核 。 所 谓 单 内 棱 就 是 把 它 从 整体 上 作为 一 个 单独 的 大 过 程 来 实现 ， 同 时 也 运行 在 一 个 单独 的 地 
址 空间 上 。 因 此 ， 这 样 的 内 核 通常 以 单个 静态 二 进 制 文件 的 形式 存放 于 磁盘 中 。 所 有 内 核 服务 
都 在 这 样 的 一 个 大 内 核 地 址 空间 上 运行 。 内 核 之 间 的 通信 是 微不足道 的 ， 因 为 大 家 都 运行 在 内 
核 态 ， 并 身 处 同一 地 址 空间 : 内 核 可 以 直接 调用 函数 ， 这 与 用 户 空 间 应 用 程序 设 有 什么 区 别 。 
这 种 模式 的 支持 者 认为 单 模块 具有 简单 和 性 能 高 的 特点 。 大 多 数 Unix 系统 都 设计 为 单 模块 。 

另 一 方面 ， 微 内 核 并 不 作为 一 个 单独 的 大 过 程 来 实现 。 相 反 ， 微 内 核 的 功能 被 划分 为 多 
修 独 立 的 过 程 ， 每 个 过 程 叫做 一 个 服务 器 。 理 想 情况 下 ， 只 有 强烈 请 求 特 权 服 务 的 服务 器 才 
运行 在 特权 模式 下 ， 其 他 服务 器 都 运行 在 用 户 空 间 。 不 过 ， 所 有 的 服务 器 都 保持 独立 并 运行 
在 各 自 的 地 址 空间 上 。 因 此 ,就 不 可 能 像 单 模块 内 核 那样 直接 调用 函数 , 而 是 通过 消息 传递 处 
理 微 内 核 通 信 : 系统 采用 了 进程 间 通 信 (IPC》 机 制 ， 因 此 ， 各 个 服务 器 之 间 通 过 IPC 机 制 
互通 消息 ， 互 换 “ 服 务 ”。 服 务 器 的 各 自 独立 有 效 地 避免 了 一 个 服务 器 的 失效 祸 及 另 一 个 。 同 
样 ， 模 块 化 的 系统 元 许 一 个 服务 器 为 了 另 一 个 服务 器 而 换 出 。 

因为 PC 机 制 的 开销 多 于 函数 调用 ， 又 因为 会 裕 及 内 核 空间 与 用 户 空 间 的 上 下 文 切换 ， 因 
此 ， 消 息 传 递 需 要 一 定 的 周期 ， 而 单 内 核 中 简单 的 函数 调用 没有 这 些 开销 。 结 果 ， 所 有 实际 应 
用 的 基于 微 内 核 的 系统 都 让 大 部 分 或 全 部 服务 器 位 于 内 核 ， 这 样 ， 就 可 以 直接 调用 函数 ， 消 
除 频繁 的 上 下 文 切 换 .Windows NT 内 核 (Windows XP、Windows Vista 和 Windows 7 等 基于 此 ) 
和 Mach (Mac OS X 的 组 成 部 分 ) 是 微 内 核 的 典型 实例 。 不 管 是 Windows NT 还 是 Mac OS X， 
都 在 其 新 近 版 本 中 不 让 任何 微 内 核 服务 占 运 行 在 用 户 空 间 ， 这 违背 了 微 内 核 设计 的 初衷。 

Linux 是 一 个 单 内 核 ， 也 就 是 说 ，Linux 内 核 运行 在 单独 的 内 核 地 址 空间 上 。 不 过 ，Linux 
汲取 了 微 内 核 的 精华 : 其 引 以 为 豪 的 是 模块 化 设计 、 抢 占 式 内 核 、 支 持 内 核 线程 以 及 动态 装 
载 内 核 异 块 的 能 力 。 不 仅 如 此 ，Linux 还 避 其 微 内 核 设计 上 性 能 损失 的 缺陷 ， 让 所 有 事情 都 运 
行 在 内 核 态 ， 直 接 调用 函数 ， 无 须 消 息 传 递 。 至 今 ，Linux 是 模块 化 的 、 多 线程 的 以 及 内 核 本 
身 可 调度 的 操作 系统 ， 实 用 主义 再 次 上 右 了 上 风 。 


当 Linus 和 其 他 内 核 开 发 者 设计 Linux 内 核 时 ， 他 们 并 没有 完全 彻底 地 与 Unix 诀别 。 他 们 


充分 地 认识 到 ， 不 能 忽视 Unix 的 底 级 〈 特 别 是 Unix 的 API)。 而 由 于 Linux 并 疫 有 基于 某 种 
特定 的 Unix，Linus 和 他 的 伙伴 们 对 每 个 特定 的 问题 都 可 以 选择 已 知 最 理想 的 解决 方案 一 一 在 
有 些 时 候 ， 当 然 也 可 以 创造 一 些 新 的 方案 。Linux 内 核 与 传统 的 Unix 系统 之 间 存 在 一 些 显著 的 
差异 : 


* Linux 支持 动态 加 载 内 核 模块 。 尽 管 Linux 内 核 也 是 单 内 核 ， 可 是 允许 在 需要 的 时 候 动 态 
地 务 除 和 加 载 部 分 内 核 代码 。 

“Linux 支持 对 称 多 处 理 (SMP) 机 制 ， 尽 管 许多 Unix 的 变 体 也 支持 SMP， 但 传统 的 Unix 
并 不 支持 这 种 机 制 |。 


Linux 内 规 订 个 7 


“Linux 内 核 可 以 抢占 preemptive )。 与 传统 的 Unix 变 体 不 同 ，Linux 内 核 有 具有 允许 在 内 核 
运行 的 任务 优先 执行 的 能 力 。 在 其 他 各 种 Unix 产品 中 ， 只 有 Solaris 和 IRIX 支持 抢占 ， 
但 是 大 多 数 Unix 内 核 不 支持 抢占 。 

。 Linux 对 线程 支持 的 实现 比较 有 意思 : 内 核 并 不 区 分 线程 和 其 他 的 一 般 进 程 。 对 于 内 核 来 
说 ， 所 有 的 进程 都 一 样 一 一 只 不 过 是 其 中 的 一 些 共享 资源 而 已 。 

* Linux 提供 具有 设备 类 的 面向 对 象 的 设备 模型 、 热 插 拔 事件 ， 以 及 用 户 空 间 的 设备 文件 系 
统 (sysfs)。 

Linux 忽略 了 一 些 被 认为 是 设计 得 很 拙劣 的 Unix 特性 ， 像 STREAMS， 它 还 忽略 了 那些 难 
以 实现 的 过 时 标准 。 

*Linux 体现 了 自由 这 个 词 的 精 蕉 。 现 有 的 Linux 特性 集 就 是 Linux 公开 开发 模型 自由 发 展 
的 结果 。 如 果 一 个 特性 没有 任何 价值 或 者 创意 很 差 ， 没有 任何 人 会 被 迫 去 实现 它 。 相 肥 
的 ， 针 对 变革 ，Linux 已 经 形成 了 一 种 值得 称赞 的 态度 : 任何 改变 都 必须 要 能 通过 简洁 的 
设计 及 正确 可 靠 的 实现 来 解决 现实 中 确实 存在 的 问题 。 于 是 ， 许 多 出 现在 某 些 Unix 变种 
系统 中 ， 那 些 出 于 市 场 宣传 目的 或 没有 普遍 意义 的 一 些 特 性 ， 如 内 核 换 页 机 制 等 都 被 毫 不 
迟疑 地 据 弃 了 。 

不 管 Linux 和 Unix 有 多 大 的 不 同 ， 它 身上 都 深 深 地 打上 了 Unix 烙印 。 


1.5 Linux 内 核 版 本 


Linux 内 核 有 两 种 : 稳定 的 和 处 于 开发 中 的 。 稳 定 的 内 核 具 有 工业 级 的 强度 ， 可 以 广泛 地 应 
用 和 部 署 。 新 推出 的 稳定 内 核 大 部 分 都 只 是 修正 了 一 些 Bug 或 是 加 入 了 一 些 新 的 设备 驱动 程序 。 
另 一 方面 处 于 开发 中 的 内 核 中 许多 东西 变化 得 都 很 快 。 而 且 由 于 开发 者 不 断 试验 新 的 解决 方案 ， 
内 核 常常 发 生 剧 烈 的 变化 。 

Linux 通过 一 个 简单 的 命名 机 制 来 区 分 稳定 的 和 处 于 开发 中 的 内 核 〔 见 图 1-2)。 这 种 机 制 使 
用 三 个 或 者 四 个 用 “.” 分 隔 的 数字 来 代表 不 同 内 核 版 本 。 第 一 个 数字 是 主 版 本 号 ， 第 二 个 数字 
是 从 版 本 号 ， 第 三 个 数字 是 修订 版 本 号 ， 第 四 个 可 选 的 数字 为 稳定 版 本 号 〈stable version)。 从 副 
版 本 号 可 以 反映 出 该 内 核 是 一 个 稳定 版 本 还 是 一 个 处 于 开发 中 的 版 本 : 该 数字 如 果 是 偶数 ， 那 么 
此 内 核 就 是 稳定 版 ; 如 果 是 奇数 ， 那 么 它 就 是 开发 版 。 举 例 来 说 ， 版 本 号 为 2.6.30.1 的 内 核 ， 它 
就 是 一 个 稳定 版 。 这 个 内 核 的 主 版 本 号 是 2， 从 版 本 号 是 6， 修 订 版 本 号 是 30， 稳 定 版 本 号 是 1。 
头 两 个 数字 在 一 起 描述 了 “内 核 系列 ”一 一 在 这 个 例子 中 ， 就 是 2.6 版 内 核 系列 。 


主 版 本 号 修订 版 本 号 


| 
2.6.26.1 


从 版 本 号 稳定 版 本 号 
图 1-2 Kermel 版 本 命名 规则 
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处 于 开发 中 的 内 核 一 般 要 经 历 几 个 阶段 。 最 开始 ， 内 核 开 发 者 们 开始 试验 新 的 特性 ， 这 时 候 
出 现 错误 和 混乱 是 在 所 难免 的 。 经 过 一 段 时 间 ， 系 统 渐渐 成 熟 ， 最 终 会 有 一 个 特性 审定 的 声明 。 
这 时 候 ，Linus 就 不 再 接受 新 的 特性 了 ， 而 对 已 有 特性 所 进行 的 后 续 工 作 会 继续 进行 。 当 Linus 
认为 这 个 新 内 核 确实 是 趋 于 稳定 后 ， 就 开始 审定 代码 。 这 以 后 ， 就 只 允许 再 向 其 中 加 入 修改 bug 
的 代码 了 。 在 经 过 一 个 短暂 (希望 如 此 ) 的 准备 期 之 后 ，Linus 会 将 这 个 内 核 作为 一 个 新 的 稳定 
版 推出 。 例 如 ，1.3 系列 的 开发 版 稳定 在 2.0， 而 2.5 稳定 在 2.6。 

在 一 个 特定 的 系列 下 ，Linus 会 定期 发 布 新 内 核 。 每 个 新 内 核 都 是 一 个 新 的 修订 版 本 。 比 如 
2.6 内 核 系列 的 第 一 个 版 本 是 2.6.0， 第 二 个 版 本 是 2.6.1。 这 些 修 订 版 包含 了 BUG 修复 、 新 的 驱 
动 和 一 些 新 特性 。 但 是 ， 像 2.6.3 和 2.6.4 修订 版 本 之 间 的 差异 是 很 微小 的 。 

这 种 开发 方式 一 直 持 续 到 2004 年 ， 当 时 在 受 芹 参加 的 Linux 开发 者 峰会 上 ， 内 核 开 发 者 们 
确定 延长 2.6 内 核 系列 ， 从 而 推迟 进入 到 2.7 系列 的 步伐 。 原 因 是 2.6 版 本 的 内 核 已 经 被 广泛 接 
受 、 其 已 经 证 明了 稳定 成 熟 ， 而 那些 还 不 成 熟 的 新 特性 其 实 并 非 人 们 所 需 。 如 今 看 来 2.6 版 本 内 
核 的 稳定 出 色 无 疑 证 明了 该 方针 是 多 么 英明 。 在 编写 本 书 时 ，2.7 版 本 内 核 仍 未 提 上 议程 ,而且 
也 看 不 出 任何 启动 迹象 。 相 反 ， 每 个 2.6 系列 内 核 的 修订 版 本 发 布 变 得 越发 长 入 ， 每 个 修订 版 都 
伴随 有 一 个 最 小 的 开发 版 系列 〈 称 其 微缩 开发 版 )。Andrew Morton，Linus 的 副手 ， 重 新 定义 了 
他 所 维护 的 2.6-mm 代码 树 ( 它 曾经 用 于 内 存 管理 相关 改动 的 测试 版 本 )， 使 其 成 为 一 个 通用 目 
的 的 油 试 版 本 。 任 何 尚 未 稳定 的 修改 都 将 首先 进入 2.6-mm 树 中 ， 等 其 稳定 后 ， 再 进入 某 个 2.6 
的 微缩 开发 版 。 如 此 策略 的 结果 是 ; 最 近 几 年 ， 每 一 个 2.6 系列 的 修订 版 本 (比如 2.6.29) 都 会 
较 其 前 身 有 深刻 的 变化 ， 也 都 会 经 历数 月 才 面 世 。 这 种 “微缩 开发 版 方式 ”被 证 明 是 可 行 的 、 成 
功 的 ， 它 更 有 利于 在 引入 新 特性 的 同时 ， 维 持 系 统 的 稳定 性 。 想必 在 近期 内 开发 策略 不 会 改 弦 易 
加 ， 事 实 上 内 核 开 发 者 们 就 新 版 本 的 发 布 流 程 延续 目前 方式 已 经 达成 了 一 致意 见 。 

为 了 解决 版 本 发 布 周期 变 长 的 副作用 ， 内 核 开 发 者 们 引入 了 上 面 提 到 的 稳定 版 本 号 。 这 个 
稳定 版 本 号 (如 2.6.32.8 中 的 8) 包含 了 关键 性 bug 的 修改 ， 并 且 常 会 向 前 移植 处 于 开发 版 内 核 
(如 2.6.33) 的 重要 修改 。 依 靠 这 种 方式 ， 以 前 版 本 保证 了 仍然 能 将 重点 放 在 稳定 性 上 。 


1.6 Linux 内 核 开 发 者 社区 


当 你 开始 开发 内 核 代码 时 ， 你 就 成 为 全 球 内 核 开 发 社区 的 一 分 子 了 。 这 个 社区 最 重要 的 论坛 
是 linux kernel mailing list〈 常 缩写 为 Lkml)。 你 可 以 在 http://vegr.kernel.org 上 订阅 邮件 。 要 注意 
的 是 这 个 邮件 列表 流量 很 大 ， 每 天 有 超过 几 百 条 的 消息 ， 所 以 其 他 的 订阅 者 (包括 所 有 的 核心 开 
发 人 员 ， 蕉 至 包括 Linus 本 人 ) 可 设 有 心思 听 人 说 废话 。 这 个 邮件 列表 可 以 给 从 事 内 核 开 发 的 人 
提供 价值 无 穷 的 帮助 ， 在 这 里 ， 你 可 以 寻找 测试 人 员 ， 接 受 评论 (peer Ieview)， 问 人 求助 。 

后 续 内 容 列 出 了 内 核 开 发 过 程 的 全 景 ， 并 详尽 地 描述 了 如 何 成 功 地 加 入 到 内 核 开 发 社区 中 
去 。 但 是 要 明白 ， 在 Linux 内 核 邮件 列表 中 裤 伏 ( 安静 地 阅读 ) 是 你 阅读 本 书 的 最 好 补充 。 


1.7 ”小结 


这 是 一 本 关于 Linux 内 核 的 书 : 内 核 的 目标 , 为 达到 目标 所 进行 的 设计 以 及 设计 的 实现 。 这 
本 书 侧重 实用 ， 同 时 在 讲述 工作 原理 时 会 结合 理论 联系 实践 。 我 的 目标 是 让 你 从 一 个 业内 人 士 的 
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视角 来 欣赏 和 理解 Linux 内 核 的 设计 和 实现 之 美 。 力 求 以 一 种 有 趣 的 方式 (伴随 着 我 个 人 在 开 
发 内 核 过 程 中 收集 的 种 种 奇闻 逸事 和 方法 技巧 ) 引导 你 走 过 跌 跌 撞 撞 的 起 步 阶 段 。 无 论 你 是 立 
志 于 开发 内 核 代 码 ， 或 者 进行 驱动 开发 ， 甚 至 只 是 希望 能 更 好 地 了 解 Linux 操作 系统 ， 你 都 将 
从 本 书 受益 。 

当 你 阅读 本 书 时 ， 我 希望 你 有 一 台 装 有 Linux 的 机 器 ， 我 希望 你 能 够 看 到 内 核 代 码 。 其 实 ， 
这 很 理想 了 ， 因 为 这 意味 着 你 是 一 位 Linux 的 使 用 者 ， 并 且 早 已 经 开始 拿 起 手术 刀 对 着 源 代码 进 
行 探索 了 ， 只 不 过 需要 一 份 结构 图 以 便 对 整个 经 脉 有 个 总 体 把 握 罢 了 。 相 反 ， 你 可 能 没有 使 用 过 
Linux， 只 是 在 好 奇 心 的 驱使 下 希望 了 解 一 些 内 核 设 计 的 秘密 而 已 。 但 是 ， 如 果 你 的 目的 只 是 所 
写 自己 的 代码 ， 那 么 ， 源 代码 的 作用 无 可 替代 。 而 且 ， 你 不 需要 付出 任何 代价 ， 尽 管用 吧 。 

好 了 ， 最 重要 的 是 ， 在 其 中 寻找 快乐 吧 。 


第 @) 章 
从 内 术 出 发 


在 这 一 童 ， 我 们 将 介绍 Linux 内 核 的 一 些 基本 常识 : 从 何 处 获取 源码 ， 如 何 编译 它 ， 又 如 何 
安 汤 新 内 核 。 那 么 ， 让 我 们 考察 一 下 内 核 程序 与 用 户 空间 程序 的 差异 ， 以 及 内 核 中 所 使 用 的 通 
用 编程 结构 。 虽 然 内 核 在 很 多 方面 有 其 独特 性 ， 但 从 现在 来 看 ， 它 和 其 他 大 型 软件 项 目 并 无 多 
大 专 别 。 


2.1 获取 内 核 源码 


登录 Linux 内 核 官 方 网 站 http:/www.kermelorg， 可 以 随时 获取 当前 版 本 的 Linux 源 代 码 ， 可 
以 是 完整 的 压缩 形式 〈 使 用 tar 命令 创建 的 一 个 压缩 文件 )， 也 可 以 是 增 量 补丁 形式 。 

除 特 殊 情况 下 需要 Linux 源码 的 旧版 本 外 ， 一 般 都 希望 拥有 最 新 的 代码 。kernel.org 是 源码 
的 库存 之 处 ， 那 些 领导 潮流 的 内 核 开 发 者 所 发 布 的 增 量 补丁 也 放 在 这 里 。 


2.1.1 使 用 Git 


在 过 去 的 几 年 中 ，Linus 和 他 领导 的 内 核 开 发 者 们 开始 使 用 一 个 新 版 本 的 控制 系统 来 管理 
Linux 内 核 源 代 码 。Linus 创造 的 这 个 系统 称 为 Git。 与 CSV 这 样 的 传统 的 版 本 控制 系统 不 同 ， 
Git 是 分 布 式 的 ， 它 的 用 靶 和 工作 流程 对 许多 开发 者 来 说 都 很 陌生 。 我 强烈 建议 使 用 Git 来 下 载 
和 管理 Linux 内 核 产 代码 。 

你 可 以 使 用 Git 来 获取 最 新 提交 到 Linus 版 本 树 的 一 个 副本 : 


$ git clone git://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux-2.6.git 

当下 载 代码 后 ， 你 可 以 更 新 你 的 分 支 到 Linus 的 最 新 分 支 : 

$ git pull 

有 了 这 两 个 命令 ， 就 可 以 获取 并 随时 保持 与 内 核 官方 的 代码 树 一 致 。 要 提交 和 管理 自己 的 修 
改 ， 请 看 第 20 章 。 关 于 Git 的 全 面 讨 论 已 经 超出 了 本 书 的 范围 ， 许 多 在 线 资源 都 提供 了 有 效 的 
指导 。 


2.1.2 安装 内 核 源 代码 


内 核 压 缩 以 GNU zip (gzip〉 和 bzip2 两 种 形式 发 布 。bzip2 是 默认 和 首选 形式 ， 因 为 它 在 压 
缩 上 比 gzip 更 有 优势 。 以 bzip2 形式 发 布 的 Linux 内 核 叫 做 linux-x.y.ztar.bz2， 这 里 xy.z 是 内 棱 
源码 的 具体 版 本 。 下 载 了 源 代 码 之 后 ， 就 可 以 轻而易举 地 对 其 解压 。 如 果 压 缩 形 式 是 bzip2， 则 
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运行 : 
$$ tar Xvijf linmmux-x.y.2.tar.be2 
如 果 压 缩 形式 是 GNU 的 zip， 则 运行 : 
$ tar XVvef linux-XxX.Y.Z.tAar.gs 


解压 后 的 源 代码 位 于 linux-x.y.z. 目录 下 。 如 果 你 是 使 用 git 获取 和 管理 内 核 源 代码 ， 那 么 就 
不 需要 下 载 压缩 文件 ， 只 要 像 前 面 描述 的 那样 运行 git clone 命令 ，git 就 会 下 载 并 且 解 压 最 新 的 
源 代码 。 


2 何 处 安装 并 触及 源码 
i 内 核 源 码 一 般 安装 在 /usrsrc/linux 目录 下 。 但 请 注意 ， 不 要 把 这 个 源码 树 用 于 开发 ， 因 
”为 编译 你 的 C 库 所 用 的 内 核 版 本 就 链接 到 这 棵 树 。 此 外 ， 不 要 以 root 身份 对 内 核 进行 修改 ， 
“ 而 应 当 是 建立 自己 的 主 目录 ， 仅 以 root 身份 安装 新 内 核 。 即 使 在 安装 新 内 核 时 ，/usr/src/linux 
”目录 都 应 当 原 封 不 动 。 
2.1.3 ”使 用 补丁 

在 Linux 内 核 社 区 中 ， 补 本 是 通用 语 。 你 可 以 以 补丁 的 形式 发 布 对 代码 的 修改 ， 也 可 以 以 补 
丁 的 形式 接收 其 他 人 所 做 的 修改 。 增 量 补丁 可 以 作为 版 本 转移 的 桥梁 。 你 不 再 需要 下 载 庞大 的 内 
核 源 码 的 全 部 压缩 ， 而 只 需 给 旧版 本 打上 一 个 增 量 补丁 ， 让 其 旧 貌 换 新 颜 。 这 不 仅 节 约 了 带宽 ， 
还 省 了 时 间 。 要 应 用 增 量 补丁 ， 从 你 的 内 部 源码 树 开始 , 只 需 运 行 : 

$ patch -pl < ../patch-x.y.Z 


一 般 来 说 ， 一 个 给 定 版 本 的 内 核 补丁 总 是 打 在 前 一 个 版 本 上 。 
有 关 创 建 和 应 用 补丁 更 深入 的 讨论 会 在 后 续 章 习 进 行 。 


2.2 ”内 核 源码 树 


内 核 源码 树 由 很 多 目录 组 成 ， 而 大 多 数目 录 又 包含 更 多 的 子 目录 。 源 码 树 的 根 目录 及 其 子 目 
录 如 表 2-1 所 示 。 


表 2-1 内 核 源码 树 的 根 目录 描述 


目 录 描 述 
arch 特定 体系 结构 的 源码 
block 块 设 备 ID 层 
crypto 加 密 API 
Documentation 内 核 源码 文档 
drivers 设备 驱动 程序 
firmware 使 用 某 些 驱动 程序 而 需要 的 设备 固件 
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( 续 ) 


目 描 述 
include 内 核 头 文件 
init 内 村 引导 和 初始 化 
ipe 进程 间 通 信 代 码 
kernel 像 调度 程序 这 样 的 核心 子 系统 
lib 通用 内 核 函数 
mm 内 存 管理 子 系统 和 VM 
net 网 络 子 系统 
samples 示例 ， 示 范 代码 
scripts 编译 内 棱 所 用 的 脚本 
security Linux 安全 模块 
sound 语音 子 系统 
UST 早期 用 户 空间 代码 (所谓 的 initramfs ) 
tools 在 Linux 开发 中 有 用 的 工具 
virt 虚拟 化 基础 结构 


在 源码 树 根 目录 中 的 很 多 文件 值得 提 及 。COPYING 文件 是 内 核 许可 证 (GNU GPL v2)。 
CREDITS 是 开发 了 很 多 内 核 代 码 的 开发 者 列表 。MAINTAINERS 是 维护 者 列表 ， 它 们 负责 维护 
内 核子 系统 和 驱动 程序 。 Makefile 是 基本 内 核 的 Makefile。 


2.3 编译 内 核 


编译 内 核 易 如 反 掌 。 让 人 吸 为 观 止 的 是 ， 这 实际 上 比 编 译 和 安装 像 glibc 这 样 的 系统 级 组 
伴 还 要 简单 。2.6 内 核 提 供 了 一 套 新 工具 ， 使 编译 内 核 更 加 容易 ， 比 早期 发 布 的 内 核 有 了 长 足 


2.3.1 配置 内 核 


因为 Linux 源码 随手 可 得 ， 那 就 意味 着 在 编译 它 之 前 可 以 配置 和 定制 。 的 确 ， 你 可 以 把 自己 
需要 的 特定 功能 和 驱动 程序 编译 进 内 核 。 在 编译 内 核 之 前 ， 首 先 你 必须 配置 它 。 由 于 内 核 提 供 了 
数不胜数 的 功能 ， 支 持 了 难以 计数 的 硬件 ， 因 而 有 许多 东西 需要 配置 。 可 以 配置 的 各 种 选项 ， 以 
CONFIG FEATURE 形式 表示 ， 其 前 缀 为 CONFIG。 例 如 ， 对 称 多 处 理 器 (SMP) 的 配置 选项 为 
CONFIG_SMP。 如 果 设 置 了 该 选项 ， 则 SMP 启用 ， 否 则 ，SMP 不 起 作用 。 配 置 选项 既 可 以 用 来 
决定 哪些 文件 编译 进 内 核 ， 也 可 以 通过 预 处 理 命令 处 理 代 码 。 

这 些 配置 项 要 么 是 二 选 一 ， 要 么 是 三 选 一 ， 二 选 一 就 是 yes 或 np。 比如 CONFIG _ 
PREEMPT 就 是 二 选 一 ， 表 示 内 核 抢占 功能 是 否 开启 。 三 选 一 可 以 是 yes、no 或 module。module 
意味 着 该 配置 项 被 选 定 了 了 ， 但 编译 的 时 候 这 部 分 功能 的 实现 代码 是 以 模块 (一 种 可 以 动态 安装 的 
独立 代码 段 ) 的 形式 生成 。 在 三 选 一 的 情况 下 ， 显 然 yes 选项 表示 把 代码 编译 进 主 内 核 映 像 中 ， 
而 不 是 作为 一 个 模块 。 驱 动 程序 一 般 都 用 三 选 一 的 配置 项 。 
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配置 选项 也 可 以 是 字符 帅 或 整数 。 这 些 选项 并 不 控制 编译 过 程 ， 而 只 是 指定 内 核 源 码 可 以 访 
问 的 值 ， 一 般 以 预 处 理 宕 的 形式 表示 。 比 如 ， 配 置 选项 可 以 指定 静态 分 配 数 组 的 大 小 。 

销售 商 提供 的 内 核 ， 像 Canonical 的 Ubuntu 或 者 Red Hat 的 Fedora， 他 们 的 发 布 版 中 包含 了 
预 编译 的 内 核 ， 这 样 的 内 核 使 得 所 需 的 功能 得 以 充分 地 启用 ， 并 几乎 把 所 有 的 驱动 程序 都 编译 成 
模块 .这 就 为 大 多 数 硬件 作为 独立 的 模块 提供 了 坚实 的 内 核 支 持 。 但 是 ， 话 又 说 回来 ， 如 果 你 是 
一 个 内 核 黑客 ， 你 应 当 编 译 自己 的 内 核 ， 并 按 自己 的 意愿 决定 包括 或 不 包含 哪 一 模块 。 

内 核 提 供 了 各 种 不 同 的 工具 来 简化 内 核 配置 。 最 简单 的 一 种 是 一 个 字符 界面 下 的 命令 行 工具 : 


$ make config 


该 工具 会 逐一 遍历 所 有 配置 项 ， 要 求 用 户 选 择 yes、no 或 是 module (如 果 是 三 选 一 的 话 )。 
由 于 这 个 过 程 往往 要 耗费 掉 很 长 时 间 ， 所 以 ， 除 非 你 的 工作 是 按 小 时 计 费 的 ， 否 则 应 该 多 利用 基 
于 ncurse 库 编 制 的 图 形 界面 工具 ; 

ss make menucontfig 

或 者 ， 是 用 基于 gtk+ 的 图 形 工具 : 

S$ make gconfig 


这 三 种 工具 将 所 有 配置 项 分 门 别 类 放置 ， 比 如 按 “ 处 理 器 类 型 和 特点 ”你 可 以 按 类 移动 、 
浏览 内 核 选项 ， 当 然 也 可 以 修改 其 值 。 
这 条 命令 会 基于 默认 的 配置 为 你 的 体系 结构 创建 一 个 配置 : 


$$ make defcontfig 


尽管 这 些 缺 省 值 有 点 随意 性 (在 1386 上 ， 据 说 那 就 是 Linus 的 配置 )， 但 是 ， 如 果 你 从 未 配 
置 过 内 核 ， 那 它们 会 提供 一 个 良好 的 开端 。 赶 快 行动 吧 ， 运 行 这 条 命令 ， 然 后 回头 看 看 ， 确 保 为 
你 的 硬件 所 配置 的 选项 是 启用 的 。 

这 些 配 置 项 会 被 存放 在 内 核 代码 树 根 目录 下 的 .config 文件 中 。 你 很 容易 就 能 找到 它 (内核 
开发 者 差不多 都 能 找到 )， 并 且 可 以 直接 修改 它 。 在 这 里 面 查找 和 修改 内 核 选 项 也 很 容易 。 在 你 修 
改过 配置 文件 之 后 ， 或 者 在 用 已 有 的 配置 文件 配置 新 的 代码 树 的 时 候 ， 你 应 该 验证 和 更 新 配置 : 

$s make oldcontia 

事实 上 ， 在 编译 内 核 之 前 你 都 应 该 这 么 做 。 

配置 选项 CONFIG_IKCONFIG_PROC 把 完整 的 压缩 过 的 内 核 配置 文件 存放 在 /proc/config. 
gz 下 ， 这 样 当 你 编译 一 个 新 内 核 的 时 候 就 可 以 方便 地 克隆 当前 的 配置 。 如 果 你 目前 的 内 核 已 经 
启用 了 此 选项 ， 就 可 以 从 /proc 下 复制 出 配置 文件 并 且 使 用 它 来 编译 一 个 新 内 核 : 


$ zcat /PIToeAeontig.g2z > .config 
$s make oldcontig 


一 旦 内 核 配置 好 了 《不 论 你 是 如 何 配置 的 )， 就 可 以 使 用 一 个 简单 的 命令 来 编译 它 了 : 
$ make 


这 跟 2.6 以 前 的 版 本 不 同 ， 你 不 用 在 每 次 编译 内 核 之 间 都 运行 make dep 了 一 一 代码 之 间 的 
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依赖 关系 会 自动 维护 。 你 也 无 须 再 指定 像 老 版 本 中 bzImage 这 样 的 编译 方式 或 独立 地 编译 模块 ， 
默认 的 Makefile 规则 会 打点 这 一 切 。 


2.3.2 减少 编译 的 垃圾 信息 


如 果 你 想 尽量 少 地 看 到 垃圾 信息 ， 却 又 不 希望 错过 错误 报告 与 警告 信息 的 话 ， 你 可 以 用 以 下 
命令 来 对 输出 进行 重 定向 : 


$$ make >» 。。 /detritus 


一 旦 你 需要 查看 编译 的 输出 信息 ， 你 可 以 查看 这 个 文件 。 不 过 ， 因 为 错误 和 警告 都 会 在 屏幕 
上 显示 ， 所 以 你 需要 看 这 个 文件 的 可 能 性 不 大 。 事实 上 ， 我 只 不 过 输入 如 下 命令 : 


$ make > /dev/null 


就 可 把 无 用 的 输出 信息 重 定 向 到 永 无 返回 值 的 黑洞 /dev/null。 


2.3.3 衍生 多 个 编译 作业 


make 程序 能 把 编译 过 程 拆 分 成 多 个 并 行 的 作业 。 其 中 的 每 个 作业 独立 并 发 地 运行 ， 这 有 助 
于 极 大 地 加 快 多 处 理 器 系统 上 的 编译 过 程 ， 也 有 利于 改善 处 理 器 的 利用 率 ， 因 为 编译 大 型 源 代码 
树 也 包括 IO 等 待 所 花费 的 时 间 (也 就 是 处 理 器 空 下 来 等 待 VO 请 求 完成 所 花费 的 时 间 )。 

默认 情况 下 ，make 只 衍生 一 个 作业 ， 因 为 Makefiles 常会 出 现 不 正确 的 依赖 信息 。 对 于 不 正确 
的 依赖 ， 多 个 作业 可 能 会 互相 踩踏 ， 导 致 编译 过 程 出 错 。 当 然 ， 内 核 的 Makefiles 没有 这 样 的 编码 
错误 ， 因 此 衍生 出 的 多 个 作业 编译 不 会 出 现 失 败 。 为 了 以 多 个 作业 编译 内 核 ， 使 用 | 下 命令 : 


$$ make -jn 


这 里 ，n 是 要 衍生 出 的 作业 数 。 在 实际 中 ， 每 个 处 理 器 上 一 般 衍 生出 一 个 或 者 两 个 作业 。 例 
如 ， 在 一 个 16 核 处 理 器 上 ， 你 可 以 输入 如 下 命令 了 


$ make -j32 > /dev/null 


利用 出 色 的 distcc 或 者 ccache 工具 ， 也 可 以 动态 地 改善 内 核 的 编译 时 间 。 


2.3.4 ”安装 新 内 核 


在 内 核 编 译 好 之 后 ， 你 还 需要 安装 它 。 怎 么 安装 就 和 体系 结构 以 及 启动 引导 工具 (boot 
loader) 息息相关 了 一 一 查阅 月 动 ?5| 导 工具 的 说 明 ， 按 照 它 的 指 主 将 内 核 映 像 拷贝 到 合适 的 位 置 ， 
并 且 按 照 启动 要 求 安装 它 。 一 定 要 保证 随时 有 一 个 或 两 个 可 以 启动 的 内 核 ， 以 防 新 编译 的 内 核 出 
现 问题 。 

例如 ， 在 使 用 grub 的 x86 系统 上 ， 可 能 需要 把 arch/1386/boot/bzImage 拷贝 到 /boot 目录 下 ， 
像 vmlinuz-version 这 样 命名 它 ， 并 且 编 辑 /etc/grub/grub.conf 文件 ， 为 新 内 核 建 立 一 个 新 的 局 动 
项 。 使 用 LILO 启动 的 系统 应 当 编辑 /etc/lilo.conf， 然 后 运行 lilo。 

所 幸 ， 模 块 的 安装 是 自动 的 ， 也 是 独立 于 体系 结构 的 。[ root 身份 ， 只 要 运行 : 
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ws make modules install 


就 可 以 把 所 有 已 编译 的 模块 安装 到 正确 的 主 目 永 /lib/modules 下 。 

编译 时 也 会 在 内 核 代 码 树 的 根 目 录 下 创建 一 个 System.map 文件 。 这 是 一 份 符号 对 照 表 ， 用 
以 将 内 核 符号 和 和 它们 的 起 始 地 址 对 应 起 来 。 调 试 的 时 候 ， 如 有 果 需 要 把 内 存 地 址 翻译 成 容易 理解 的 
函数 名 以 及 变量 名 ， 这 就 会 很 有 用 。 


2.4 ”内核 开发 的 特点 


相对 于 用 户 空 间 内 应 用 程序 的 开发 ， 内 核 开 发 有 一 些 独特 之 处 。 尽 管 这 些 差异 并 不 会 使 开发 
内 核 代码 的 难度 超过 开发 用 户 代码 ， 但 它们 依然 有 很 大 不 同 。 

这 些 特 点 使 内 核 成 了 一 只 性 格 巡 异 的 猛兽 。 一 些 常 用 的 准则 被 着 覆 了 ， 而 又 必须 建 并 许多 全 
新 的 准则 。 尽 管 有 许多 差异 一 目 了 然 ( 人 人 都 知道 内 核 可 以 做 它 想 做 的 任何 事 )， 但 还 是 有 一 些 
差异 睡 暗 不 明 。 最 重要 的 差异 包括 以 下 几 种 : 

* 内 核 编程 时 既 不 能 访问 C 库 也 不 能 访问 标准 的 C 头 文件 。 

" 四 核 编程 时 必须 使 用 GNU C。 

* 内 核 编程 时 缺乏 像 用 户 空间 那样 的 内 存 保护 机 制 。 

* 内 核 编 程 时 难以 执行 浮 点 运算 。 

* 内 核 给 每 个 进程 只 有 一 个 很 小 的 定 长 堆栈 。 

*。 由 于 内 核 支持 异步 中 断 、 抢 占 和 SMP， 因 此 必须 时 刻 注意 同步 和 并 发 。 

* 要 考虑 可 移植 性 的 重要 性 。 

让 我 们 仔细 考察 一 下 这 些 要 点 ， 所 有 内 核 开 发 者 必须 牢记 以 上 要 后 。 


2.4.1 元 libc 库 抑或 无 标准 头 文件 


与 用 户 空间 的 应 用 程序 不 同 ， 内 核 不 能 链接 使 用 标 崔 C 函数 库 一 一 或 者 其 他 的 那些 库 也 不 
行 。 造 成 这 种 情况 的 原因 有 许多 ， 其 中 就 包括 先 有 鸡 还 是 先 有 和 蛋 这 个 悖 论 。 不 过 最 主要 的 原因 还 
是 速度 和 大 小 。 对 内 核 来 说 ， 完 整 的 C 库 一 一 哪怕 是 它 的 一 个 子 集 ， 都 太 大 且 太 低 效 了 。 

别 着 急 ， 大 部 分 常用 的 C 库 函 数 在 内 核 中 都 已 经 得 到 了 实现 。 比 如 操作 字符 串 的 函数 组 就 
位 于 lib/string.c 文件 中 。 只 要 包含 <linuxy/string.h> 头 文件 ， 就 可 以 使 用 它们 。 


， ” 当 我 在 本 书 中 谈 及 头 文件 时 ， 都 指 的 是 组 成 内 核 源 代 码 树 的 内 核 头 文件 。 内 核 源 代码 文 
, 件 不 能 包含 外 部 头 文件 ， 就 像 它们 不 能 用 外 部 库 一 样 。 

” ”基本 的 头 文件 位 于 内 核 源 代码 树 顶级 目录 下 的 include 目录 中 。 例 如 ， 头 文件 <linux/ 
”inotify.h> 对 应 内 核 源 代码 树 的 include/linux/inotify.h。 

， 体系 结构 相关 的 头 文件 集 位 于 内 核 源 代码 树 的 arch/<architecture>/include/asm 目录 下 。 例 
“” 如， 如果 编 译 的 是 x86 体系 结构 ， 则 体系 结构 相关 的 头 文件 就 是 arch/x86/include/asm。 内 核 
“代码 通过 以 asm/ 为 前 缀 的 方式 包含 这 些 头 文件 ， 例 如 <asm/ioctLh>。 
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在 所 有 没有 实现 的 函数 中 ， 最 著名 的 就 数 printf) 函数 了。 内核 代码 虽然 无 法 调用 printft)， 
但 它 提供 的 printk0 函数 几乎 与 printf0 相同 。printk0 函数 负责 把 格式 化 好 的 字符 串 拷贝 到 内 核 
日 志 缓 促 区 上 ， 这 样 ，syslog 程序 就 可 以 通过 读 取 该 缓冲 区 来 获取 内 核 信息 。printk0 的 用 法 很 
像 printfo : 


printk{"Hello world! A string: '%s' and an integer: '%d'\n", str, i); 


printk() 和 printf0) 之 间 的 一 个 显著 区 别 在 于 ，printk0 允许 你 通过 指定 一 个 标志 来 设置 优先 
级 。syslogd 会 根据 这 个 优先 级 标志 来 决定 在 什么 地 方 显示 这 条 系统 消息 。 下 面 是 一 个 使 用 这 种 
优先 级 标志 的 例子 : 


Printk (KERN ERR "this is an error!l\n").; 


注意 在 KERN_ERR 和 和 要 打印 的 消息 之 间 没 有 各 号 ， 这 样 写 是 别 有 用 意 的 。 优 先 铀 标志 是 
预 处 理 程序 定义 的 一 个 描述 性 字符 事 ， 在 编译 时 优先 级 标志 就 与 要 打印 的 消息 绑 在 一 
起 处 理 。 贯 穿 整 本 书 ， 我 们 会 使 用 printk()。 


2.4.2 GNUC 


像 所 有 自视 清高 的 Unix 内 核 一 样 ，Linux 内 核 是 用 C 语言 编写 的 。 让 人 上 略 感 惊讶 的 是 ， 内 
核 并 不 完全 符合 ANSI C 标准 。 实 际 上 ， 只 要 有 可 能 ， 内 核 开发 者 总 是 要 用 到 gcc 提供 的 许多 语 
言 的 扩展 部 分 。(gcc 是 多 种 GNU 编译 器 的 集合 ， 它 包含 的 C 编译 器 既 可 以 编译 内 核 ， 也 可 以 编 
译 Linux 系统 上 用 C 语言 写 的 其 他 代码 。) 

内 核 开发 者 使 用 的 C 语言 涵盖 了 ISO C99 5 标准 和 GNU C 扩展 特性 。 这 其 中 的 种 种 变化 把 
Linux 内 核 推 癌 了 gcc 的 怀抱 ， 尽 管 目前 出 现 了 一 些 新 的 编译 问 如 Intel C， 已 经 支持 了 足够 多 的 
gcc 扩展 特性 ， 完 全 可 以 用 来 编译 Linux 内 核 了 。 最 早 支 持 gcc 的 版 本 是 3.2， 但 是 推荐 使 用 gee 
4.4 或 之 后 的 版 本 。Linux 内 核 用 到 的 ISO C99 标准 的 扩展 没有 什么 特别 之 处 ， 而 且 C99 作为 C 
语言 官方 标准 的 修订 本 ， 不 可 能 有 大 的 或 是 激进 的 变化 。 让 人 感 兴趣 的 ， 与 标准 C 语言 有 区 别 的 ， 
通常 也 是 人 们 不 熟悉 的 那些 变化 ， 多 数 集 中 在 GNU C 上 。 就 让 我 们 研究 一 下 内 核 代 码 中 所 使 用 到 
的 C 语 言 扩 展 中 让 人 感 兴趣 的 那 部 分 吧 ， 这 些 变化 使 内 核 代 码 有 别 于 你 所 熟悉 的 其 他 项 目 。 

1. 内 联 〔〈inliney 函数 

C99 和 GNU C 均 支 持 内 联 国 数 。inline 这 个 名 称 旺 就 可 以 反映 出 它 的 工作 方式 ， 函 数 会 在 它 
所 调用 的 位 置 上 展开 。 这 么 做 可 以 消除 销 数 调用 和 返回 所 带 来 的 开销 (寄存 器 存储 和 恢复 )。 而 
且 ， 由 于 编译 器 会 把 调用 函数 的 代码 和 函数 本 身 放 在 一 起 进行 优化 ， 所 以 也 有 进一步 优化 代码 的 
可 能 。 不 过 ， 这 么 做 是 有 代价 的 (天 下 没有 免费 的 午餐 )， 代 码 会 变 长 ， 这 也 就 意味 着 占用 更 多 


日 ISO C99 是 ISO C 的 最 新 修订 版 。C99 相对 于 前 一 个 修订 版 C90 做 了 许多 加 强 ，1SO C99 引入 了 指定 初始 化 ， 
可 变 长 度 的 数组 ，C++ 风格 的 注释 ，long long 和 complex 数据 类 型 ， 但 是 linux 内 核 只 使 用 了 C93 特性 的 一 个 
子 集 。 

日 译 者 注 : inline 翻译 成 内 联 似 乎 并 不 贴切 ， 直 译 应 读 是 “在 字里行间 展开 ”的 意思 ， 不 过 约定 俗 成 ， 我 们 也 把 
它 翻 译 成 “内 联 ”。 
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的 内 存 空 间或 者 占用 更 多 的 指令 缓存 。 内 核 开发 者 通常 把 那些 对 时 间 要 求 比较 高 ， 而 本 身长 度 
又 比较 短 的 函数 定义 成 内 联 函 数 。 如 果 一 个 函数 较 大 ， 会 被 反复 调用 ， 且 没有 特别 的 时 间 上 的 限 
制 ， 我 们 并 不 赞成 把 它 做 成 内 联 函 数 。 

定义 一 个 内 联 函 数 的 时 候 ， 需 要 使 用 static 作为 关键 字 ， 并 旦 用 inline 限定 它 。 比 如 : 


static inline void wolf (unsigned long tail size) 


内 联 函 数 必须 在 使 用 之 前 就 定义 好 ， 否 则 编译 器 就 没 法 把 这 个 函数 展开 。 实 践 中 一 般 在 头 文 
件 中 定义 内 联 函 数 。 由 于 使 用 了 static 作为 关键 字 进 行 限制 ， 所 以 编译 时 不 会 为 内 联 函 数 单独 建 
立 一 个 函数 体 。 如 果 一 个 内 联 函 数 仅 仅 在 某 个 源 文 件 中 使 用 ， 那 么 也 可 以 把 它 定 义 在 该 文件 开始 
的 地 方 。 

在 内 核 中 ， 为 了 类 型 安全 和 易 读 性 ， 优 先 使 用 内 联 函 数 而 不 是 复杂 的 宏 。 

2. 内 联 汇编 

gcc 编译 器 支持 在 C 函数 中 由 入 汇编 指令 。 当 然 ， 在 内 核 编 程 的 时 候 ， 只 有 知道 对 应 的 体系 
结构 ， 才 能 使 用 这 个 功能 。 

我 们 通常 使 用 asm() 指令 嵌入 汇编 代码 。 例如， 下 面 这 条 内 联 汇编 指令 用 于 执行 x86 处 理 器 
的 rdtsc 指令 ， 返 回 时 间 惟 〈tsc) 寄存 器 的 值 ; 


unsigned int low, high; 

asm volatile("rdtsc" : "=a" (low), "=d" (high})}); 

/* low 和 high 分 别 包含 64 位 时 间 稚 的 低 32 位 和 高 32 位 */ 

Linux 的 内 核 混合 使 用 了 C 语言 和 汇编 语言 。 在 偏 近 体系 结构 的 底层 或 对 执行 时 间 要 求 严格 
的 地 方 ， 一 般 使 用 的 是 汇编 语言 。 而 内 核 其 他 部 分 的 大 部 分 代码 是 用 C 语言 编写 的 。 

3. 分 支 声明 

对 于 条 件 选 择 语句 ，gcc 内 建 了 一 条 指令 用 于 优化 ， 在 一 个 条 件 经 常 出 现 ， 或 者 该 条 件 很 少 
出 现 的 时 候 ， 编 译 器 可 以 根据 这 条 指令 对 条 件 分 支 选 择 进行 优化 。 内 核 把 这 条 指令 封装 成 了 宏 ， 
比如 Likely0 和 unlikely0， 这 样 使 用 起 来 比较 方便 。 

例如 ， 下 面 是 一 个 条 件 选 择 语句 : 


if lerror) | 


i pi 惠 
} 


如 果 想 要 把 这 个 选择 标记 成 绝 少 发 生 的 分 支 : 
fA* 我 们 认为 error 绝 大 多 数 时 间 都 会 为 0. . -.*/ 


if (unlikely (error})) 1{ 


js 二 站 
} 


相反 ， 如 果 我 们 想 把 一 个 分 支 标记 为 通常 为 真 的 选择 : 


/* 我 们 认为 success 通常 都 不 会 为 0 */ 
if {likely(success}}) | 

fe 。- 。 雪 f 
} 
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在 你 想 要 对 某 个 条 件 选 择 语句 进行 优化 之 前 ， 一 定 要 搞 清 楚 其 中 是 不 是 存在 这 人 么 一 个 条 件 ， 
在 绝 大 多 数 情 况 下 都 会 成 立 。 这 点 十 分 重要 ; 如 果 你 的 判断 正确 ， 确 实 是 这 个 条 件 占 压倒 性 的 地 
位 ， 那 么 性 能 会 得 到 提升 ; 如 果 你 搞 错 了 ， 性 能 反而 会 下 降 。 正 如 上 面 这 些 例 子 所 示 ， 通 常 在 对 
一 些 错 误 条 件 进行 判断 的 时 候 会 用 到 unlikelyO 和 likely0。 你 可 以 猜 到 ，unlikely0 在 内 核 中 会 得 
到 更 广泛 的 使 用 ， 因 为 让 语句 往往 判断 一 种 特殊 情况 。 


2.4.3 没有 内 存 保护 机 制 


如 有 果 一 个 用 户 程序 试图 进行 一 次 非法 的 内 存 访 问 ， 内 核 就 会 发 现 这 个 错误 ， 发 送 SIGSEGV 
信号 ， 并 结束 整个 进程 。 然 而 ， 如 果 是 内 核 自己 非法 访问 了 内 存 ， 那 后 果 就 很 难 控制 了 。( 毕 竟 ， 
有 谁 能 照顾 内 核 呢 ? ) 内 核 中 发 生 的 内 存 错误 会 导致 oops， 这 是 内 核 中 出 现 的 最 常见 的 一 类 错 
误 。 在 内 核 中 ， 不 应 该 去 做 访问 非法 的 内 存 地 址 ， 引 用 空 指针 之 类 的 事情 ， 否 则 它 可 能 会 死 掉 ， 
却 根本 不 告诉 你 一 声 一 一 在 内 核 里 ， 风 险 常常 会 比 外 面 大 一 些 。 

此 外 ， 内 核 中 的 内 存 都 不 分 页 。 也 就 是 说 ， 你 每 用 掉 一 个 字 节 ， 物 理 内 存 就 减少 一 个 字 节 。 
所 以 ， 在 你 想 往 内 核 里 加 入 什么 新 功能 的 时 候 ， 要 记 住 这 一 点 。 


2.4.4 不 要 轻易 在 内 核 中 使 用 浮 点 数 


在 用 户 空 间 的 进程 内 进行 浮 点 操作 的 时 候 ， 内 核 会 完成 从 整数 操作 到 浮 点 数 操作 的 模式 转 
换 。 在 执行 浮 点 指令 时 到 底 会 做 些 什么 ， 因 体系 结构 不 同 ， 内 核 的 选择 也 不 同 ， 但 是 ， 内 核 通常 
捕获 陷阱 井 着 手 于 整数 到 浮 所 方式 的 转变 。 

与 用 户 空间 进程 不 同 ， 内 核 并 不 能 完美 地 支持 浮 点 操作 ， 因 为 它 本 身 不 能 陷入 。 在 内 核 中 
使 用 浮 点 数 时 ， 除 了 要 人 工 保存 和 恢复 浮 点 寄存 器 ， 还 有 其 他 一 些 琐碎 的 事情 要 做 。 如 果 要 直 截 
了 当地 回答 ， 那 就 是 : 别 这 么 做 了 ， 除 了 一 些 极 少 的 情况 ， 不 要 在 内 核 中 使 用 浮 点 操作 。 


2.4.5 ”容积 小 而 固定 的 栈 


用 户 空 间 的 程序 可 以 从 栈 上 分 配 大 量 的 空间 来 存放 变量 ， 甚 至 巨大 的 结构 体 或 者 是 包含 数 以 
千 计 的 数据 项 的 数组 都 没有 问题 。 之 所 以 可 以 这 么 做 ， 是 因为 用 户 空间 的 栈 本 身 比 较 大 ， 而 且 还 
能 动态 地 增长 (年 长 的 开发 者 回想 一 下 DOS 那个 年 代 ， 这 种 低级 的 操作 系统 即使 在 用 户 空 间 也 
只 有 固定 大 小 的 栈 )。 

内 核 栈 的 准确 大 小 随 体系 结构 而 变 。 在 x86 上 ， 栈 的 大 小 在 编译 时 配置 ， 可 以 是 4KB 也 可 
以 是 8SKB。 从 历史 上 说 ， 内 核 栈 的 大 小 是 两 页 ， 这 就 意味 着 ，32 位 机 的 内 核 栈 是 8KB， 而 64 位 
机 是 16KB， 这 是 固定 不 变 的 。 每 个 处 理 器 都 有 自己 的 栈 。 

关于 内 核 栈 的 更 多 内 容 ， 会 在 后 面 的 章节 中 讨论 。 


2.4.6 ”同步 和 并 发 


内 核 很 容易 产生 竞争 条 件 。 和 单线 程 的 用 户 空 间 程序 不 同 ， 内 核 的 许多 特性 都 要 求 能 够 并 发 
地 访问 共享 数据 ， 这 就 要 求 有 同步 机 制 以 保证 不 出 现 况 争 条 件 ， 特 别 是 : 
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“Linux 是 抢占 多 任务 操作 系统 。 内 核 的 进程 调度 程序 即兴 对 进程 进行 调度 和 重新 调度 。 内 
核 必 须 和 这 些 任务 同步 。 

“Linux 内 核 支持 对 称 多 处 理 普 系统 〈(SMP)。 所 以 ， 如 果 设 有 适当 的 保护 ， 同 时 在 两 个 或 两 
个 以 上 的 处 理 器 上 执行 的 内 核 代码 很 可 能 会 同时 访问 共享 的 同一 个 资源 。 

* 中断 是 异步 到 来 的 ， 完 全 不 顾及 当前 正在 执行 的 代码 。 也 就 是 说 ， 如 果 不 加 以 适当 的 保 
护 ， 中 断 完全 有 可 能 在 代码 访问 资源 的 时 候 到 来 ， 这 样 ， 中 段 处 理 程序 就 有 可 能 访问 同一 
资源 。 

* Linux 内 核 可 以 抢占 。 所 以 ， 如 果 不 加 以 适当 的 保护 ， 内 核 中 一 段 正在 执行 的 代码 可 能 会 
被 另外 一 段 代码 抢占 ， 从 而 有 可 能 导致 几 段 代码 同时 访问 相同 的 资源 。 

常用 的 解决 竞争 的 办 法 是 自 旋 锁 和 信号 量 。 我 们 将 在 后 面 的 章节 中 详细 讨论 同步 和 并 发 执行 。 


2.4.7 可 移植 性 的 重要 性 


尽管 用 户 空 间 的 应 用 程序 不 太 注 意 移植 问题 ， 然 而 Linux 却 是 一 个 可 移植 的 操作 系统 ， 并 且 
要 一 直 保 持 这 种 特点 。 也 就 是 说 ， 大 部 分 C 代码 应 该 与 体系 结构 无 天， 在 许多 不 同体 系 结构 的 
计算 机 上 都 能 够 编译 和 执行 ， 因 此 ， 必 须 把 与 体系 结构 相关 的 代码 从 内 核 代码 树 的 特定 目录 中 适 
当地 分 离 出 来 。 

诸如 保持 字 节 序 、64 位 对 齐 、 不 假定 字 长 和 页 面 长 度 等 一 系列 准则 都 有 助 于 移植 性 。 对 移 
植 性 的 深度 讨论 将 在 后 面 的 章 市 中 进行 。 


2.5 小结 


毫 无 疑义 ， 内 核 有 独一无二 的 特质 。 它 实施 自己 的 规则 和 奖 司 措施 ， 拥 有 整个 系统 的 最 高 管 
理 权 。 当 然 ，Linux 内 核 的 复杂 性 和 高 门槛 与 其 他 大 型 软件 项 目 并 无 差异 。 在 内 核 开发 之 路 上 
最 重要 的 步 又 是 要 意识 到 内 核 并 没有 那么 可 怕 。 陌 生 是 肯定 的 ， 但 真 的 就 不 可 逾越 ? 事实 并 非 
如 此 。 

本 章 和 以 前 的 章节 为 贯穿 本 书 剩余 童 节 所 讨论 的 主题 莫 定 了 基础 。 在 后 续 的 每 一 章 中 ， 我 
们 都 会 涵盖 内 核 的 一 个 具体 概念 或 子 系统 。 在 探索 的 征途 中 ， 最 重要 的 是 要 阅读 和 修改 内 核 源 
代码 ， 只 有 通过 实际 的 阅读 和 实践 才 会 理解 内 核 。 内 核 源 代码 是 可 以 免费 获取 的 ， 直 接 用 就 可 
以 了 ! 


第 (3) 章 
进程 管理 


本 章 引 入 进程 的 概念 ， 进 程 是 Unix 操作 系统 抽象 概念 中 最 基本 的 一 种 。 其 中 涉及 进程 的 定 
义 以 及 相关 的 概念 ， 比 如 线程 ; 然后 讨论 Linux 内 核 如 何 管理 每 个 进程 : 它们 在 内 核 中 如 何 被 列 
从 ， 如 何 创建 ， 最 终 又 如 何 销 亡 。 我 们 拥有 操作 系统 就 是 为 了 运行 用 户 程 序 ， 因 此 ， 进 程 管 理 就 
是 所 有 操作 系统 的 心脏 所 在 ，Linux 也 不 例外 。 


3.1 进程 


进程 就 是 处 于 执行 期 的 程序 (目标 码 存 放 在 某 种 存储 介质 上 )。 但 进程 并 不 仅仅 局 限于 一 段 
可 执行 程序 代码 (Unix 称 其 为 代码 段 ，text section)。 通 常 进程 还 要 包含 其 他 资源 ， 像 打开 的 文 
件 ， 挂 起 的 信和 号， 内核 内 部 数据 ， 处 理 器 状态 ， 一 个 或 多 个 具有 内 存 映 射 的 内 存 地 址 空间 及 一 个 
或 多 个 执行 线程 (thread of execution)， 当 然 还 包括 用 来 存放 全 局 变量 的 数据 段 等 。 实际 上 ， 进 
程 就 是 正在 执行 的 程序 代码 的 实时 结果 。 内 核 需 要 有 效 而 又 透明 地 管理 所 有 细节 。 

执行 线程 ， 简 称 线程 〈thread)， 是 在 进程 中 话 动 的 对 象 。 每 个 线程 都 拥有 一 个 独立 的 程序 
计数 器 、 进 程 栈 和 一 组 进程 寄存 器 。 内 核 调度 的 对 象 是 线程 ， 而 不 是 进程 。 在 传统 的 Unix 系统 
中 ， 一 个 进程 只 包含 一 个 线程 ， 但 现在 的 系统 中 ， 包 含 多 个 线程 的 多 线程 程序 司空 见 惯 。 稍 后 你 
会 看 到 ，Linux 系统 的 线程 实现 非常 特别 : 它 对 线程 和 进程 并 不 特别 区 分 。 对 Linux 而 言 ， 线 程 
只 不 过 是 一 种 特殊 的 进程 罢了 。 

在 现代 操作 系统 中 ， 进 程 提供 两 种 虚拟 机 制 : 虑 拟 处 理 器 和 虚拟 内 存 。 虽 然 实 际 上 可 能 是 
许多 进程 正在 分 享 一 个 处 理 器 ， 但 虚拟 处 理 器 给 进程 一 种 假象 ， 让 这 些 进 程 觉 得 自己 在 独 享 处 理 
栈 。 第 4 章 将 详细 描述 这 种 虚拟 机 制 。 而 虚拟 内 存 让 进程 在 分 配 和 管理 内 存 时 觉得 自己 拥有 整个 
系统 的 所 有 内 存 资源 。 第 12 章 将 描述 虚拟 内 存 机 制 。 有 趣 的 是 , 注意 在 线程 之 间 呈 可 以 共享 典 拟 
内 人 存 ， 但 每 个 都 拥有 各 目的 虚拟 处 理 帮 。 

程序 本 身 并 不 是 进程 ， 进 程 是 处 于 执行 期 的 程序 以 及 相关 的 资源 的 总 称 。 实 际 上 ， 完 全 可 能 
存在 两 个 或 多 个 不 同 的 进程 执行 的 是 同一 个 程序 。 并 且 两 个 或 两 个 以 上 并 存 的 进程 还 可 以 共享 许 
多 诸如 打开 的 文件 、 地 址 空间 之 类 的 资源 。 

无 疑 ， 进 程 在 创建 它 的 时 刻 开始 存活 。 在 Linux 系统 中 ， 这 通常 是 调用 fork() 系统 的 结果 ， 
该 系统 调用 通过 复制 一 个 现 有 进程 来 创建 一 个 全 新 的 进程 。 调 用 fork() 的 进程 称 为 父 进程 ， 新 产 
生 的 进程 称 为 子 进程 。 在 该 调用 结束 时 ， 在 返回 点 这 个 相同 位 置 上 ， 父 进程 恢复 执行 ， 子 进程 开 
始 执行 。fork0O 系统 调用 从 内 核 返 回 两 次 : 一 次 回 到 父 进 程 ， 另 一 次 回 到 新 产生 的 子 进程 。 


日 ”这 里 是 指 包含 在 同一 个 进程 中 的 线程 。 一 一 译 者 注 
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通常 ， 创 建新 的 进程 都 是 为 了 立即 执行 新 的 、 不 同 的 程序 ， 而 接着 调用 exec0 这 组 函数 
就 可 以 创建 新 的 地 址 空间 ， 并 把 新 的 程序 载 人 其 中 。 在 现代 Linux 内 核 中 ，fork( 实际 上 是 由 
clone( 系统 调用 实现 的 ， 后 者 将 在 后 面 讨论 。 

最 终 ， 程 序 通过 exit() 系统 调用 退出 执行 。 这 个 函数 会 终结 进程 并 将 其 占用 的 资源 释放 掉 。 
父 进 程 可 以 通过 wait40 日 系统 调用 查询 子 进程 是 否 终 结 ， 这 其 实 使 得 进程 拥有 了 等 待 特定 进程 
执行 完毕 的 能 力 。 进 程 退出 执行 后 被 设置 为 僵 死 状态 ， 直 到 它 的 父 进程 调用 waitO 或 waitpid0 
为 止 。 

注意 ”进程 的 另 一 个 名 字 是 任务 (task)。Linux 内 核 通常 把 进程 也 叫做 任务 。 本 书 会 交替 

使 用 这 两 个 术语 ， 不 过 我 所 说 的 任务 通常 指 的 是 从 内 核 观点 所 看 到 的 进程 。 


3.2 ”进程 描述 符 及 任务 结构 


内 核 把 进程 的 列表 存放 在 叫做 任务 队列 〈task list 晶 ) 的 双向 循环 链表 中 。 链 表 中 的 每 一 
项 都 是 类 型 为 task stmct、 称 为 进程 描述 符 (process descriptor) 的 结构 ， 读 结构 定义 在 <linux/ 
sched.h> 文件 中 。 进 程 描述 符 中 包含 一 个 具体 进程 的 所 有 信息 。 

task_struct 相对 较 大 ， 在 32 位 机 器 上 ， 它 大 约 有 1.7KB。 但 如 果 考 虑 到 该 结构 内 包含 了 内 
核 管理 一 个 进程 所 需 的 所 有 信息 ， 那 么 它 的 大 小 也 算 相 当 小 了 。 进 程 描述 符 中 包含 的 数据 能 完整 
地 描述 一 个 正在 执行 的 程序 : 它 打开 的 文件 ， 进 程 的 地 址 空间 ， 挂 起 的 信号 ， 进 程 的 状态 ， 还 有 
其 他 更 多 信息 〈 见 图 3-1)。 


进程 描述 符 





图 3-1 ”进程 描述 符 及 任务 队列 


日 、 由 内 核 负 责 实现 wait40 系统 调用 。Linux 系统 通过 C 库 通 常 要 提供 waitD、waitpid0、wait3O 和 wait40 国 数 。 
虽然 有 些 细微 的 语意 差别 ， 但 所 有 函数 都 返回 关于 终止 进程 的 状态 。 

全 有些 介 绍 操作 系统 的 教材 称 这 为 任务 数组 (task array)。 由 于 Linux 实现 时 使 用 的 是 队列 而 不 是 静态 数组 ， 所 
以 就 称 作 任务 队列 。 


22 珊 了 重 


3.2.1 分 配 进 程 描述 符 


Linux 通过 slab 分 配器 分 配 task_struct 结构 ， 这 样 能 达到 对 象 复 用 和 缓存 着 色 (cache 
coloring) (参见 第 12 章 ) 的 目的 9。 在 2.6 以 前 的 内 核 中 ， 各 个 进程 的 task_struct 存放 在 它们 
内 核 栈 的 尾 端 。 这 样 做 是 为 了 让 那些 像 x86 那样 寄存 器 较 少 的 硬件 体系 结构 只 要 通过 栈 指针 就 
能 计算 出 它 的 位 置 ， 而 避免 使 用 额外 的 寄存 器 专门 记录 。 由 于 现在 用 slab 分 配器 动态 生成 task_ 
struct， 所 以 只 需 在 栈 底 〈 对 于 网 下 增长 的 栈 来 说 ) 或 栈 顶 (对 于 向 上 增长 的 栈 来 说 ) 创建 一 个 
新 的 结构 struct thread _ info 号 ( 见 图 3-2)。 

在 x86 上 ，struct thread info 在 文件 <asm/thread info.h> 中 定义 如 下 : 


struct thread info { 


struct task struct tS ; 
atruct exec domain *exec domain,; 
U32 flags; 
__u32 status; 
uu32 cpu; 
int preempt count; 
mm segment 七 addr limit; 
atruct restart block restart block; 
void *gyaenter return; 
int Uaccese err; 
}; 
进程 内 核 栈 
i 最 高 的 内 存 地 址 
- 栈 指针 


\ thread_info 有 一 个 指向 进程 描述 符 的 指针 
VS 进程 的 stmet task_stbmet 结 构 
图 3-2 ”进程 描述 符 和 内 核 栈 


合 ”通过 预先 分 配 和 重复 使 用 task_sturct， 可 以 避免 动态 分 配 和 释放 所 带 来 的 资产 请 耗 ， 还 记得 吗 ， 第 1 章 说 过 ， 
Unix 的 一 个 特点 就 是 进程 创建 迅速 。 译 者 注 

全 ”寄存 器 较 弱 的 体系 结构 不 是 引入 thread_info 结构 的 唯一 原因 。 这 个 新 建 的 结构 使 在 汇编 代码 中 计算 其 偏 移 变 
得 非常 容易 。 
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每 个 任务 的 thread_info 结构 在 它 的 内 核 栈 的 尾 端 分 配 。 结 构 中 task 域 中 存放 的 是 指 同 该 任 
务实 际 task struct 的 指针 。 


3.2.2 ”进程 描述 符 的 存放 


内 核 通过 一 个 唯一 的 进程 标识 值 (process identification value) 或 PID 来 标识 每 个 进程 。PID 是 
一 个 数 ， 表 示 为 pid t 隐 含 类 型 实际 上 就 是 一 个 nt 类 型 。 为 了 与 老 版 本 的 Unix 和 Linux 兼容 ， 
PID 的 最 大 值 默认 设置 为 32768 (short int 短 整 型 的 最 大 值 ) , 尽管 这 个 值 也 可 以 增加 到 高 达 400 万 
(这 受 <linux/threads.h> 中 所 定义 PID 最 大 值 的 限制 )。 内 核 把 每 个 进程 的 PID 存放 在 它们 各 目的 进 
程 描述 符 中 。 

这 个 最 大 值 很 重要 ， 因 为 它 实 际 上 就 是 系统 中 人 允许 同时 存在 的 进程 的 最 大 数目 。 尽 管 32768 

对 于 一 般 的 桌面 系统 足够 用 了 ， 但 是 大 型 服务 器 可 能 需要 更 多 进程 。 这 个 值 越 小 ， 转 一 圈 就 越 快 ， 
本 来 数值 大 的 进程 比 数值 小 的 进程 迟 运行 ， 但 这 样 一 来 就 破坏 了 这 一 原则 。 如 果 确 实 需要 的 话 ， 
”可 以 不 考虑 与 老式 系统 的 兼容 ， 由 系统 管理 员 通过 修改 /proc/sys/kernelpid max 来 提高 上 限 。 

在 内 核 中 ， 访 问 任务 通常 需要 获得 指向 其 task_struct 的 指针 。 实 际 上 ， 内 核 中 大 部 分 处 理 进 
程 的 代码 都 是 直接 通过 task_struct 进行 的 。 因 此 ， 通 过 current 宏 查 找到 当前 正在 运行 进程 的 进 
程 描述 符 的 速度 就 显得 尤为 重要 。 硬 件 体系 结构 不 同 ， 该 宕 的 实现 也 不 同 ， 它 必须 针对 专门 的 硬 
件 体系 结构 做 处 理 。 有 的 硬件 体系 结构 可 以 拿 出 一 个 专门 寄存 器 来 存放 指向 当前 进程 task_struct 
的 指针 ， 用 于 加 快 访问 速度 。 而 有 些 像 x86 这 样 的 体系 结构 (其 寄存 器 并 不 富余 )， 就 只 能 在 内 
核 栈 的 尾 端 创建 thread_info 结构 ， 通 过 计算 偏 移 间 接地 查找 task_struct 结构 。 

在 x86 系统 上 ，current 把 栈 指针 的 后 13 个 有 效 位 屏蔽 掉 ， 用 来 计算 出 thread_info 的 偏 移 。 
该 操作 是 通过 current_thread info0 国 数 来 完成 的 。 汇 编 代 码 如 下 : 

mov] $-B8192, 向 忆 弓 其 

andl] $%esp, beax 

这 里 假定 栈 的 大 小 为 8KB。 当 4KB 的 栈 启用 时 ， 就 要 用 4096， 而 不 是 8192。 

最 后 ，current 再 从 thread info 的 task 域 中 提取 并 返回 task stmuct 的 地 址 : 


current thread into() ->task,; 


对 比 一 下 这 部 分 在 PowerPC 上 的 实现 (IBM 基于 RISC 的 现代 微 处 理 器 )， 我 们 可 以 发 现 
PPC 当前 的 task struct 是 保存 在 一 个 寄存 器 中 的 。 也 就 是 说 ， 在 PPC 上 ，current 宏 只 需 把 也 寄 
存 器 中 的 值 返 回 就 行 了 。 与 x86 不 一 样 ，PPC 有 足够 多 的 寄存 器 ， 所 以 它 的 实现 有 这 样 选择 的 余 
地 。 而 访问 进程 描述 符 是 一 个 重要 的 频繁 操作 ， 所 以 PPC 的 内 核 开 发 者 觉得 完全 有 必要 为 此 使 
用 一 个 专门 的 寄存 器 。 


3.2.3 ”进程 状态 
进程 描述 符 中 的 state 域 描述 了 进程 的 当前 状态 〈 见 图 3-3)。 系 统 中 的 每 个 进程 都 必然 处 于 


号 隐 仿 类 型 指数 据 类 型 的 物理 表示 是 未 知 的 或 不 相关 的 。 
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" TASK_RUNNING (运行 ) 一 一 进程 是 可 执行 的 ; 它 或 者 正在 执行 ， 或 者 在 运行 队列 中 等 
待 执行 〈 运 行 队列 将 会 在 第 4 章 中 讨论 )。 这 是 进程 在 用 户 空 间 中 执行 的 唯一 可 能 的 状态 ; 
这 种 状态 也 可 以 应 用 到 内 核 空 间 中 正在 执行 的 进程 。 

“TASK_INTERRUPTIBLE (可 中 断 ) 一 一 进程 正在 睡 醋 〈 也 就 是 说 它 被 阻塞 )， 等 待 某 些 条 
件 的 达成 。 一 旦 这 些 条 件 达 成 ， 内 核 就 会 把 进程 状态 设置 为 运行 。 处 于 此 状态 的 进程 也 会 
因为 接收 到 信和 号 而 提前 被 唤醒 并 随时 准备 投入 运行 。 

"TASK_UNINTERRUPTIBLE (不 可 中 断 ) 一 一 除了 就 算是 接收 到 信号 也 不 会 被 唤醒 或 准备 
投入 运行 外 ， 这 个 状态 与 可 打 断 状态 相同 。 这 个 状态 通常 在 进程 必须 在 等 待 时 不 受 干扰 或 
等 待 事件 很 快 就 会 发 生 时 出 现 。 由 于 处 于 此 状态 的 任务 对 信和 号 不 做 响应 ， 所 以 较 之 可 中 断 
状态 日 ， 使 用 得 较 少 。 

*。_ TASK_TRACED 一 一 被 其 他 进程 跟踪 的 进程 ， 例 如 通过 ptrace 对 调试 程序 进行 跟踪 。 

*“。_ TASK _STOPPED (停止 ) 一 一 进程 停止 执行 ; 进程 没有 投入 运行 也 不 能 投入 运行 。 通 常 
这 种 状态 发 生 在 接收 到 SIGSTOP、SIGTSTP、SIGTTIN、SIGTTOU 等 信号 的 时 候 。 此 外 ， 
在 调试 期 间接 收 到 任何 信号 ， 都 会 使 进程 进入 这 种 状态 。 





调度 程序 将 任务 投入 运行 
achedule() 函 数 调 用 context_switch() 函 数 






TASK_RUNNING 
(正在 运行 ) 









任务 被 优先 级 
更 高 的 任务 抢占 





为 了 等 待 特定 事件 ， 
性 务 在 等 待 队 列 上 睡眠 
等 待 的 事件 发 生 后 任务 被 唤醒 
并 且 被 重新 置 人 运行 队列 中 
图 3-3 进程 状态 转化 
日 。 这 就 是 你 在 执行 ps(1) 命令 时 ， 看 到 那些 被 标 为 D 状态 而 又 不 能 被 杀 死 的 进程 的 原因 。 由 于 任务 将 不 响应 信 


号 ， 因 此 ， 你 不 可 能 给 它 发 送 SIGKILL 信和 号 。 退 一 步 说 ， 即 使 有 办 法 ， 终 结 这 样 一 个 任务 也 不 是 明智 的 选 
择 ， 因 为 该 任务 有 可 能 正在 执行 重要 的 操作 ， 其 至 还 可 能 持 有 一 个 信号 量 。 
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3.2.4 设置 当前 进程 状态 
内 核 经 常 需要 调整 某 个 进程 的 状态 。 这 时 最 好 使 用 set_task_state(task, state) 函数 ， 


set task stateltask, state); /A* 特 尾 务 task 的 状 志 设 置 汶 state */ 


该 函数 将 指定 的 进程 设置 为 指定 的 状态 。 必 要 的 时 候 ， 它 会 设置 内 存 屏 障 来 强制 其 他 处 理 器 
作 重 新 排序 。( 一 般 只 有 在 SMP 系统 中 有 此 必要 。) 否则 ， 它 等 价 于 : 


task->~state = state; 


set_current_state(state) 和 set_task state(current, state) 含义 是 等 同 的 。 参 看 <linux/sched.h> 中 
对 这 些 相关 函数 实现 的 说 明 ， 


3.2.5 ”进程 上 下 文 


可 执行 程序 代码 是 进程 的 重要 组 成 部 分 。 这 些 代码 从 一 个 可 执行 文件 载 人 到 进程 的 地 址 空间 
执行 。 一 般 程序 在 用 户 空 间 执 行 。 当 一 个 程序 调 执 行 了 系统 调用 (参见 第 5 章 ) 或 者 触发 了 某 个 
异 第 ， 它 就 陷入 了 内 核 空间 。 此 时 ， 我 们 称 内 核 “ 代 表 进 程 执行 ”并 处 于 进程 上 下 文中 。 在 此 上 
下 文中 current 宏 是 有 效 的 吕 。 除 非 在 此 间隙 有 更 高 优先 级 的 进程 需要 执行 并 由 调度 器 做 出 了 相 
应 调整 ， 否 则 在 内 核 进 出 的 时 候 ， 程 序 恢复 在 用 户 空间 会 继续 执行 。 

系统 调用 和 蜡 稼 处 理 程序 是 对 内 核 明 确定 义 的 接口 。 进 程 只 有 通过 这 些 接口 才能 陷 人 内 核 
执行 一 一 对 内 核 的 所 有 访问 都 必须 通过 这 些 接口 。 


3.2.6 ”进程 家 族 树 


Unix 系统 的 进程 之 间 存在 一 个 明显 的 继承 关系 ， 在 Linux 系统 中 也 是 如 此 。 所 有 的 进程 都 
是 PID 为 1 的 init 进程 的 后 代 。 内 核 在 系统 启动 的 最 后 阶段 启动 init 进程 。 读 进程 读 取 系统 的 初 
始 化 脚本 (initscript) 并 执行 其 他 的 相关 程序 ， 最 终 完 成 系统 启动 的 整个 过 程 。 

系统 中 的 每 个 进程 性 有 一 个 父 进程 ， 相 应 的 ， 每 个 进程 也 可 以 拥有 零 个 或 多 个 子 进 程 。 拥 
有 同一 个 父 进程 的 所 有 进程 被 称 为 兄弟 。 进 程 间 的 关系 存放 在 进程 描述 符 中 。 每 个 task_struct 都 
包含 一 个 指向 其 父 进程 tast_struct、 岂 做 parent 的 指针 ， 还 包含 一 个 称 为 children 的 子 进程 链表 。 
所 以 ， 对 于 当前 进程 ， 可 以 通过 下 面 的 代码 获得 其 父 进程 的 进程 描述 符 ， 

struct task struct *my parent = CUrrent->parent.; 

同样 ， 也 可 以 按 以 下 方式 依次 访问 子 进程 : 

struct task struct *task; 

struct list head *list; 


list for each(list, &current->children) | 
task = list entryllist, struct task struct, sibling).; 


但 ”除了 进程 上 下 文 ， 我 们 将 在 第 7 童 讨论 中 断 上 下 文 。 在 中 断 上 下 文中 ， 系 统 不 代表 进程 执行 ， 而 是 执行 一 个 
中 断 处 理 程 序 。 不 会 有 进程 去 干扰 这 些 中 断 处 理 程序 ， 所 以 此 时 不 存在 进程 上 下 文 。 
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/* task 现在 指向 当前 的 某 个 子 进程 */ 

init 进程 的 进程 描述 符 是 作为 init_task 静态 分 配 的 。 下 面 的 代码 可 以 很 好 地 演示 所 有 进程 之 
则 的 关系 : 

struct task struct *task; 

for (task = current; task l= &init task; task = task->parent) 

/* task 现在 指向 init */ 

实际 上 ， 你 可 以 通过 这 种 继承 体系 从 系统 的 任何 一 个 进程 出 发 查找 到 任意 指定 的 其 他 进程 。 
但 大 多 数 时 候 ， 只 需要 通过 简单 的 重复 方式 就 可 以 遍历 系统 中 的 所 有 进程 。 这 非常 容易 做 到 ， 因 
为 任务 队列 本 来 就 是 一 个 双 同 的 循 坏 链表 。 对 于 给 定 的 进程 ， 获 取 链 表 中 的 下 一 个 进程 ; 

list entryltask->tasks.next, gtruct task struct, taskes) 

获取 前 一 个 进程 的 方法 与 之 相同 : 


list entryltask->tasks.prev, struct task struct, tasks) 


这 两 个 例 程 分 别 通 过 next task(task) 宏和 prev_task(task) 宏 实 现 。 而 实际 上 ，for_each_ 
process(task) 宏 提供 了 依次 访问 整个 任务 队列 的 能 力 。 每 次 访问 ， 任 务 指针 都 指向 链表 中 的 下 一 
个 元 素 


struct task struct 二 七 忌 SK; 


for each process (task) 1 
/* 它 打 印 出 每 一 个 任务 的 名 称 和 PID*/ 
printk{"$s [$d] \n", task-»>comm, tagk->pid); 
} 
特别 提醒 ”在 一 个 拥有 大 量 进程 的 系统 中 通过 重复 来 遍历 所 有 的 进程 代价 是 很 大 的 。 因 此 ， 
如 果 没 有 充足 的 理由 【或 者 别 无 他 法 )， 别 这 样 做 。 


3.3 ”进程 创建 


Unix 的 进程 创建 很 特别 。 许 多 其 他 的 操作 系统 都 提供 了 产生 (spawn) 进程 的 机 制 ， 首 先 在 
新 的 地 址 空间 里 创建 进程 ， 读 入 可 执行 文件 ， 最 后 开始 执行 。Unix 采用 了 与 众 不 同 的 实现 方式 ， 
它 把 上 述 步骤 分 解 到 两 个 单独 的 函数 中 去 执行 ; fork0 和 exec() 9。 首 先 ，fork0 通过 拷贝 当前 进 
程 创建 一 个 子 进程 。 子 进程 与 父 进程 的 区 别 仅 仅 在 于 PID 〈 每 个 进程 唯一 )、PPID ( 父 进程 的 进 
程 号 ， 子 进程 将 其 设置 为 被 拷贝 进程 的 PID ) 和 某 些 资源 和 统计 量 〈 例 如 ， 挂 起 的 信号 ， 它 没有 
必要 被 继承 )。exec() 函数 负责 读 取 可 执行 文件 并 将 其 载 人 地 址 空间 开始 运行 。 把 这 两 个 函数 组 
合 起 来 使 用 的 效果 跟 其 他 系统 使 用 的 单一 函数 的 效果 相似 。 


日 exec0 在 这 里 指 所 有 exec0 一族 的 录 数 。 内 棱 实 再 了 execve0 国 数 ， 在 此 基础 上 ， 还 实现 了 execlpn、 
execle()}、execv() 和 execvp()。 
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3.3.1 写 时 拷贝 


传统 的 fork() 系统 调用 直接 把 所 有 的 资源 复制 给 新 创建 的 进程 。 这 种 实现 过 于 简单 并 且 效 率 
低下 ， 因 为 它 拷贝 的 数据 也 许 并 不 共享 ， 更 精 的 情况 是 ， 如 果 新 进程 打算 立即 执行 一 个 新 的 映 
像 ， 那 么 所 有 的 拷贝 都 将 前 功 尽 弃 。Linux 的 fork0 使 用 写 时 拷贝 (copy-on-write) 页 实现 。 写 
时 拷贝 是 一 种 可 以 推迟 甚至 免除 拷贝 数据 的 技术 。 内 核 此 时 并 不 复制 整个 进程 地 址 空间 ， 而 是 让 
父 进程 和 子 进程 共享 同一 个 拷贝 。 

只 有 在 需要 写 人 的 了 时候 ， 数 据 才 会 被 复制 ， 从 而 使 各 个 进程 拥有 各 自 有 的 拷贝 。 也 就 是 说 ， 资 
源 的 复制 只 有 在 需要 写 人 的 时 候 才 进行 ， 在 此 之 前 ， 只 是 以 只 读 方式 共享 。 这 种 技术 使 地 址 空间 
上 的 页 的 拷贝 破 推 迟到 实际 发 生 写 人 的 时 候 才 进行 。 在 页 根本 不 会 被 写 人 的 情况 下 《举例 来 说 ， 
fork() 后 立即 调用 execO0) 它们 就 无 须 复制 了 。 

fork() 的 实际 开销 就 是 复制 父 进程 的 页 表 以 及 给 子 进程 创建 唯一 的 进程 描述 符 。 在 一 般 情 况 
下 ， 进 程 创 建 后 都 会 马上 运行 一 个 可 执行 的 文件 ， 这 种 优化 可 以 避免 拷贝 大 量 根本 就 不 会 被 使 用 
的 数据 地址 空间 里 常常 包含 数 十 兆 的 数据 }。 由 于 Unix 强调 进程 快速 执行 的 能 力 ， 所 以 这 个 优 
化 是 很 重要 的 。 


3.3.2 fork() 


Linux 通过 clone0 系统 调用 实现 fork()。 这 个 调用 通过 一 系列 的 参数 标志 来 指明 父 、 子 进程 
需要 共享 的 资源 (关于 这 些 标志 更 多 的 信息 请 参考 本 章 后 面 3.4 节 )。fork()、vfork() 和 __clone () 
库 函 数 都 根据 各 自 需 要 的 参数 标志 去 调用 clone0， 然 后 由 clone() 去 调用 do_fork0。 

do_fork 完成 了 创建 中 的 大 部 分 工作 ， 它 的 定义 在 kernel/fork.c 文件 中 。 读 函数 调用 copy_ 
process() 函数 ， 然 后 让 进程 开始 运行 。copy_process( 函数 完成 的 工作 很 有 意思 : 

1) 调用 dup _ task _struct0 为 新 进程 创建 一 个 内 核 栈 、thread_info 结构 和 task_struct， 这 些 值 
与 当前 进程 的 值 相同 。 此 时 ， 子 进程 和 父 进 程 的 描述 符 是 完全 相同 的 。 

2) 检查 并 确保 新 创建 这 个 子 进程 后 ， 当 前 用 户 所 拥有 的 进程 数目 没有 超出 给 它 分 配 的 资源 
的 限制 。 

3) 子 进程 着 手 使 自己 与 父 进程 区 别 开 来 。 进 程 描述 符 内 的 许多 成 员 都 要 被 清 0 或 设 为 初始 
值 。 那 些 不 是 继承 而 来 的 进程 描述 符 成 员 ， 主 要 是 统计 信息 。task_struct 中 的 大 多 数 数据 都 依然 
未 被 修改 。 

4) 子 进程 的 状态 被 设置 为 TASK_UNINTERRUPTIBLE， 以 保证 它 不 会 投入 运行 。 

5) copy_process() 调用 copy_flags() 以 更 新 task_struct 的 flags 成 员 。 表 明 进 程 是 否 拥有 超级 
用 户 权 限 的 PF SUPERPRIV 标志 被 请 0。 表 明 进 程 还 没有 调用 exec0 函数 的 PF FORKNOEXREC 
标志 被 设置 。 

6) 调用 alloc_pid0 为 新 进程 分 配 一 个 有 效 的 PID。 

7) 根据 传递 给 clone() 的 参数 标志 ，copy_process( 拷贝 或 共享 打开 的 文件 、 文 件 系统 信息 、 
信和 号 处 理 函 数 、 进 程 地 址 空间 和 命名 空间 等 。 在 一 般 情况 下 ， 这 些 资 源 会 被 给 定 进程 的 所 有 线程 
共享 ; 否则 ， 这 些 资源 对 每 个 进程 是 不 同 的 ， 因 此 被 拷贝 到 这 里 。 
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8) 最 后 ，copy_process() 做 扫尾 工作 并 返回 一 个 指向 子 进 程 的 指针 。 

再 回 到 do_fork() 函数 ， 如 果 copy_process() 国 数 成 功 返 回 ， 新 创建 的 子 进程 被 唤醒 并 让 其 
投入 运行 。 内 核 有 意 选 择 子 进程 首先 执行 后 。 因 为 一 般 子 进程 都 会 马上 调用 exec0 函数 ， 这 样 可 
以 避免 写 时 拷贝 的 额外 开销 ， 如 果 父 进程 首先 执行 的 话 ， 有 可 能 会 开始 向 地 址 空间 写 人 。 


3.3.3 vfork() 


除了 不 拷贝 父 进程 的 页 表 项 外 ，vfork0 系统 调用 和 fork0 的 功能 相同 。 子 进程 作为 父 进程 
的 一 个 单独 的 线程 在 它 的 地 址 空间 里 运行 ， 父 进程 被 阻塞 ， 直 到 子 进程 退出 或 执行 exec()。 子 进 
程 不 能 向 地 址 空间 写 人 入。 在 过 去 的 3BSD 时 期 ， 这 个 优化 是 很 有 意义 的 ， 那 时 并 未 使 用 写 时 拷贝 
页 来 实现 fork()。 现 在 由 于 在 执行 forkO 时 引入 了 写 时 拷贝 页 并 且 明 确 了 子 进程 先 执 行 ，vftork0O 
的 好 处 就 仅 限 于 不 拷贝 父 进程 的 页 表 项 了 。 如 果 Linux 将 来 fork0 有 了 写 时 拷贝 页 表 项 ， 那 么 
vfork0 就 彻底 没 用 了 号 。 另 外 由 于 vfork0 语意 非常 微妙 〈 试 想 ， 如 果 exec() 调用 失败 会 发 生 什 
么 )， 所 以 理想 情况 下 ， 系 统 最 好 不 要 调用 vfork0， 内 核 也 不 用 实现 它 。 完 全 可 以 把 vfork() 实现 
成 一 个 普 普 通通 的 fork() 一 一 实际 上 ，Linux 2.2 以 前 都 是 这 么 做 的 。 

vfork0 系统 调用 的 实现 是 通过 向 clone0 系统 调用 传递 一 个 特殊 标志 来 进行 的 。 

1 ) 在 调用 copy_process() 时 ，task struct 的 vfor_done 成 员 被 设置 为 NULL 。 

2) 在 执行 do_fork() 时 ， 如 果 给 定 特别 标志 ， 则 vfork_done 会 指向 一 个 特定 地 址 。 

3) 子 进程 先 开始 执行 后 ， 父 进程 不 是 马上 恢复 执行 ， 而 是 一 直 等 待 ， 直 到 子 进 程 通 过 
vfork done 指针 向 它 发 送信 号 。 

4) 在 调用 mm_release( 时 ， 读 函数 用 于 进程 退出 内 存 地 址 空间 ， 并 且 检 查 vfork_done 是 否 
为 室 ， 如 果 不 为 室 ， 则 会 癌 父 进程 发 送信 号。 

5) 回 到 do_fork0， 父 进程 醒 来 并 返回 。 . 

如 果 一 切 执行 顺利 ， 子 进程 在 新 的 地 址 空间 里 运行 而 父 进 程 也 恢复 了 在 原 地 址 空间 的 运行 。 
这 样 ， 开 销 确实 降低 了 ， 不 过 它 的 实现 并 不 是 优良 的 。 


3.4 ”线程 在 Linux 中 的 实现 


线程 机 制 是 现代 编程 技术 中 常用 的 一 种 抽象 概念 。 该 机 制 提 供 了 在 同一 程序 内 共享 内 存 地 址 
空间 运行 的 一 组 线程 。 这 些 线程 还 可 以 共享 打开 的 文件 和 其 他 资源 。 线 程 机 制 支持 并 发 程序 设计 
技术 (concurrent programming)， 在 多 处 理 袁 系统 上 ， 它 也 能 保证 真正 的 并 行 处 理 (parallelism )。 

Linux 实现 线程 的 机 制 非常 独特 。 从 内 核 的 角度 来 说 ， 它 并 没有 线程 这 个 概念 。Linux 把 所 
有 的 线程 都 当做 进程 来 实现 。 内 核 并 设 有 谁 备 特别 的 调度 算法 或 是 定义 特别 的 数据 结构 来 表征 线 
程 。 相 反 ， 线 程 仅仅 被 视 为 一 个 与 其 他 进程 共享 某 些 资源 的 进程 。 每 个 线程 都 拥有 唯一 隶属 于 自 
己 的 task_struct， 所 以 在 内 核 中 ， 它 看 起 来 就 像 是 一 个 普通 的 进程 《只 是 线程 和 其 他 一 些 进程 共 
享 某 些 资源 ， 如 地 址 空间 )。 


昌 、 有趣 的 是 ， 虽 然 想 让 子 进程 先 运行 ,但 是 并 非 总 能 如 此 。 
日 。、 有 补丁 可 以 帮助 Linux 完成 读 功 能 。 这 种 特性 很 可 能 找到 自己 的 途径 而 进入 Linux 主 内 核 。 
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上 述 线 程 机 制 的 实现 与 Microsoft Windows 或 是 Sun Solaris 等 操作 系统 的 实现 差异 非常 
大 。 这 些 系统 都 在 内 核 中 提供 了 专门 支持 线程 的 机 制 (这 些 系 统 常常 把 线程 称 作 轻 量 级 进程 
(lightweight processes))。“ 轻 量 级 进程 ”这 种 叫 法 本 身 就 概括 了 Linux 在 此 处 与 其 他 系统 的 差 
异 。 在 其 他 的 系统 中 ， 相 较 于 重量 级 的 进程 ， 线 程 被 抽象 成 一 种 耗费 较 少 资源 ， 运 行 迅 速 的 执行 单 
元 。 而 对 于 Linux 来 说 ， 它 只 是 一 种 进程 间 共享 资源 的 手段 (Linux 的 进程 本 身 就 够 轻 量 级 了 ) 日 。 
举 个 例子 来 说 ， 假 如 我 们 有 一 个 包含 四 个 线程 的 进程 ， 在 提供 专门 线程 支持 的 系统 中 ， 通 常会 有 
一 个 包含 指向 四 个 不 同 线程 的 指针 的 进程 描述 和 罕 。 该 描述 符 负 责 描述 像 地 址 空间 、 打 开 的 文件 这 
样 的 共享 资源。 线程 本 身 再 去 描述 它 独 占 的 资源 。 相 反 ，Linux 仅仅 创建 四 个 进程 并 分 配 四 个 普 
通 的 task_sturct 结构 。 建 立 这 四 个 进程 时 指定 他 们 共享 某 些 资产 ， 这 是 相当 高 雅 的 做 法 。 


3.4.1 创建 线程 


线程 的 创建 和 普通 进程 的 创建 类 似 ， 只 不 过 在 调用 clone() 的 时 候 需 要 传递 一 些 参数 标志 来 
指明 需要 共享 的 资源 : 

clone (CLONE VM | CLONE FS | CLONE FILES | CLONE SIGHAND, 0); 

上 面 的 代码 产生 的 结果 和 调用 fork() 差不多 ， 只 是 父子 俩 共享 地 址 空间 、 文 件 系 统 资源 、 文 
件 摘 述 符 和 信号 处 理 程 序 。 换 个 说 法 就 是 ， 新 建 的 进程 和 它 的 父 进程 束 是 流行 的 所 谓 线程 。 

对 比 一 下 ， 一 个 普通 的 fork() 的 实现 是 : 

clone (SIGCHLD, 0}); 
而 vfork0 的 实现 是 : 

clone (CLONE VFORK | CLONE VM | SIGCHLD, 0); 

传递 给 clone0 的 参数 标志 决定 了 新 创建 进程 的 行为 方式 和 父子 进程 之 间 共 享 的 资源 种 类 。 
表 3-1 列举 了 这 些 clone() 用 到 的 参数 标志 以 及 它们 的 作用 ， 这 些 是 在 <linux/sched.h> 中 定义 的 。 


表 3-1 clone() 参数 标志 


参数 标志 名 诺 
CLONE FILES 父子 进程 共享 打开 的 文件 
CLONE FS 父子 进程 共享 文件 系统 信息 
CLONE IDLETASK 将 PID 设置 为 0 (只 供 idle 进程 使 用 ) 
CLONE NEWNS 为 子 进程 创建 新 的 命名 空间 
CLONE PARENT 指定 子 进程 与 父 进 程 拥有 同一 个 父 进程 
CLONE PTRACE 继续 调试 子 进程 
CLONE SETTID 将 TID 回 写 至 用 户 空 间 
CLONE SETTLS 为 子 进程 创建 新 的 TLS 
CLONE SIGHAND 父子 进程 共享 信号 处 理 孙 数 及 被 阴 断 的 信号 


日” 作为 一 个 例子 ， 创 建 Linux 进程 所 花 时 间 和 创建 其 他 操作 系统 (尤其 是 线程 ) 所 花 时 间 的 比较 测评 结果 非常 好 。 
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( 续 ) 
参数 标志 含义 
CLONE SYSVSEM 父子 进程 共享 System V SEM_UNDO 语义 
CLONE THREAD 介子 进程 放 人 相同 的 线程 组 
CLONE VFORK 调用 vforde0， 所 以 父 进程 准备 睡眠 等 待 子 进程 将 其 唤醒 
CLONE UNTRACED 防止 跟踪 进程 在 子 进程 上 强制 执行 CLONE_PTRACE 
CLONE STOP 以 TASK STOPPED 状态 开始 进程 
CLONE SETTLS 为 子 进程 创建 新 的 TLS(thread-local storage) 
CLONE CHILD CLEARTID 清除 子 进程 的 TID 
CLONE_CHILD SETTID 设置 子 进程 的 TD 
CLONE PARENT SETTID 设置 父 进程 的 TID 
CLONE_VM 父子 进程 共享 地 址 空间 
3.4.2 内核 线程 


内 核 经 常 需要 在 后 台 执 行 一 些 操作 。 这 种 任务 可 以 通过 内 核 线 程 〈kemel thread) 完成 一 一 
独立 运行 在 内 核 空间 的 标准 进程 。 内 核 线程 和 普通 的 进程 则 的 区 别 在 于 内 核 线程 设 有 独立 的 地 址 
空间 (实际 上 指向 地 址 空间 的 mm 指针 被 设置 为 NULL)。 它 们 只 在 内 核 空间 运行 ， 从 来 不 切换 
到 用 户 空间 去 。 内 核 进程 和 普通 进程 一 样 ， 可 以 被 调度 ， 也 可 以 被 抢占 。 

Linux 确实 会 把 一 些 任务 交 给 内 核 线 程 去 做 ， 像 flush 和 ksofirqd 这 些 任务 就 是 明显 的 例子 。 
在 装 有 Linux 系统 的 机 子 上 运行 ps -ef 命令 ， 你 可 以 看 到 内 核 线程 ， 有 很 多 ! 这 些 线程 在 系统 局 
动 时 由 另外 一 些 内 核 线 程 创 建 。 实 际 上 ， 内 核 线程 也 只 能 由 其 他 内 核 线程 创建 。 内 核 是 通过 从 
kthreadd 内 核 进程 中 衍生 出 所 有 新 的 内 核 线程 来 自动 处 理 这 一 点 的 。 在 <linux/kthread.h> 中 申明 
有 接口 ， 于 是 ， 从 现 有 内 核 线程 中 创建 一 个 新 的 内 核 线程 的 方法 如 下 : 

struct task struct *kthread create lint {(*threadfn} (void *data), 

void *data, 


const char namefmt [], 
...) 


新 的 任务 是 由 kthread 内 核 进程 通过 clone() 系统 调用 而 创建 的 。 新 的 进程 将 运行 thread 名 
函数 ， 给 其 传递 的 参数 为 data。 进 程 会 被 命名 为 namefmt，namefmt 接受 可 变 参 数列 表 类 似 于 
printf() 的 格式 化 参数 。 新 创建 的 进程 处 于 不 可 运行 状态 ， 如 果 不 通过 调用 wake_up_process() 
明确 地 唤醒 它 ， 它 不 会 主动 运行 。 创 建 一 个 进程 并 让 它 运行 起 来 ， 可 以 通过 调用 kthread_run() 
来 达到 : 

struct task struct *kthread run(int (*threadfn) (void *data), 

void *data, 


const char namefmt[], 
.。.] 


这 个 例 程 是 以 宕 实现 的 ， 只 是 简单 地 调用 了 kthread_create() 和 wake_up_process(): 
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#define kthread runtthreadfn, data, namefmt, ...} 


({ 


struct task struct *k; 


k = kthread create (threadfn, data, namefmt, ## VA ARGS ); 
if {lIS ERR {kK)) 
wake up proceses (k); 


a a a 


k; 
)) 
内 核 线 程 启动 后 就 一 直 运 行 直 到 调用 do_exit() 退出 ， 或 者 内 核 的 其 他 部 分 调用 kthread 
stop() 退出 ， 传 递 给 kthread_stop() 的 参数 为 kthread_create() 函数 返回 的 task_struct 结构 的 地 址 : 


int kthread stop(lstruct task struct *Xk) 


我 们 将 在 以 后 的 内 容 中 详细 讨论 具体 的 内 核 线程 。 


3.5 ”进程 终结 


虽然 让 人 伤感 ， 但 进程 终归 是 要 终结 的 。 当 一 个 进程 终结 时 ， 内 棱 必 须 释 放 它 所 占有 的 资源 
并 把 这 一 不 幸 告知 其 父 进程 。 

一 般 来 说 ， 进 程 的 析 构 是 自身 引起 的 。 它 发 生 在 进程 调用 exit() 系统 调用 时 ， 既 可 能 显 式 
地 调用 这 个 系统 调用 ， 也 可 能 隐 式 地 从 某 个 程序 的 主 函 数 返 回 (其 实 C 语言 编译 器 会 在 main() 
国 数 的 返回 点 后 面 放置 调用 exit() 的 代码 )。 当 进程 接受 到 它 既 不 能 处 理 也 不 能 忽略 的 信号 或 异 
当时 ， 它 还 可 能 被 动 地 终结 。 不管 进 程 是 怎么 终结 的 ， 读 任务 大 部 分 都 要 靠 do_exitQ (定义 于 
kernel/exit.c) 来 完成 ， 它 要 做 下 面 这 些 烦琐 的 工作 : 

1) 将 tast_struct 中 的 标志 成 员 设置 为 PF_EXITING。 

2) 调用 del_ timer_sync() 删除 任 一 内 核定 时 器 。 根 据 返 回 的 结果 ， 它 确保 没有 定时 器 在 排 
队 ， 也 没有 定时 器 处 理 程序 在 运行 。 

3) 如 果 BSD 的 进程 记 账 功能 是 开启 的 ，do_exit(0 调用 acct update integrals() 来 输出 记 帐 
信息 。 

4) 然后 调用 exit_ mm 函数 释放 进程 占用 的 mm_struct， 如 果 没 有 别 的 进程 使 用 它们 (也 就 
是 说 ， 这 个 地 址 空间 没有 被 共享 )， 就 彻底 释放 它们 。 

5) 接 下 来 调用 sem __ exit() 国 数 。 如 果 进 程 排队 等 候 IPC 信号 ， 它 则 离开 队列 。 

6) 调用 exit files() 和 exit_f0， 以 分 别 递 减 文件 描述 符 、 文 件 系 统 数 据 的 引用 计数 。 如 果 
其 中 某 个 引用 计数 的 数值 降 为 零 ， 那 么 就 代表 没有 进程 在 使 用 相应 的 资源 ， 此 时 可 以 释放 。 

7) 接着 把 存放 在 task_struct 的 exit_code 成 员 中 的 任务 退出 代码 置 为 由 exit( 提供 的 退出 代 
码 ， 或 者 去 完成 任何 共 他 由 内 楼 机 制 规定 的 退出 动作 。 退 出 代码 存放 在 这 里 供 父 进 程 随时 检索 。 

8) 调用 exit_notify( 向 父 进程 发 送信 和 号， 给 子 进程 重新 找 养 父 ， 养 父 为 线程 组 中 的 其 
他 线程 或 者 为 init 进程 ， 并 把 进程 状态 (存放 在 task_struct 结构 的 exit_state 中 ) 设 成 EXIT_ 
ZOMBIE., 

9) do_exit( 调用 schedule() 切换 到 新 的 进程 〈 参 看 第 4 章 )。 因 为 处 于 EXIT ZOMBIE 状态 
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的 进程 不 会 再 被 调度 ， 所 以 这 是 进程 所 执行 的 最 后 一 段 代 码 。do_exitO 永 不 返回 。 

至 此 ， 与 进程 相关 联 的 所 有 资源 都 被 释放 掉 了 【假设 读 进 程 是 这 些 资源 的 唯一 使 用 者 )。 进 
程 不 可 运行 (实际 上 也 没有 地 址 空间 让 它 运行 ) 并 处 于 EXIT_ZOMBIE 退出 状态 。 它 占用 的 所 
有 内 存 就 是 内 核 栈 、thread_info 结构 和 tast_struct 结构 。 此 时 进程 存在 的 唯一 目的 就 是 向 它 的 父 
进程 提供 信息 。 父 进程 检索 到 信息 后 ， 或 者 通知 内 核 那 是 无 关 的 信息 后 ， 由 进程 所 持 有 的 剩余 内 
存 被 释放 ， 归 还 给 系统 使 用 。 


3.5.1 删除 进程 描述 符 


在 调用 了 do_exit() 之 后 ， 尽 管线 程 已 经 伪 死 不 能 再 运行 了 ， 但 是 系统 还 保留 了 它 的 进程 描 
述 符 。 前 面 说 过 ， 这 样 做 可 以 让 系统 有 办 法 在 子 进程 终结 后 仍 能 获得 它 的 信息 。 因 此 ， 进 程 终结 
时 所 需 的 请 理工 作 和 进程 描述 符 的 删除 被 分 开 执行 。 在 父 进程 获得 已 终结 的 子 进程 的 信息 后 ， 或 
者 通知 内 核 它 并 不 关 往 那些 信息 后 ， 子 进程 的 task _struct 结构 才 被 释放 。 

wait() 这 一 族 函 数 都 是 通过 唯一 〈 但 是 很 复杂 ) 的 一 个 系统 调用 wait4() 来 实现 的 。 它 的 标 
准 动 作 是 挂 起 调用 它 的 进程 ， 直 到 其 中 的 一 个 子 进程 退出 ， 此 时 函数 会 返回 该 子 进程 的 PID。 此 
外 ， 调 用 该 函数 时 提供 的 指针 会 包含 子 函 数 退 出 时 的 退出 代码 。 | 

当 最 终 需 要 释放 进程 描述 符 时 ，release task(0 会 被 调用 ， 用 以 完成 以 下 工作 : 

1) 它 调 用 _exit_signal0, 该 函数 调用 _unhash_process0, 后 者 又 调用 detach_pid() 从 pidhash 
上 删除 该 进程 ， 同 时 也 要 从 任务 列表 中 删除 读 进 程 。 

2) _exit_signal() 释放 目前 伪 死 进程 所 使 用 的 所 有 剩余 资源 ， 并 进行 最 终 统 计 和 记录 。 

3) 如 有 果 这 个 进程 是 线程 组 最 后 一 个 进程 ， 并 且 领 头 进程 已 经 死 掉 ， 那 么 release_task() 就 要 
通知 僵 死 的 领头 进程 的 父 进 程 。 

4) release_task() 调用 put_ task structO 释放 进程 内 核 栈 和 thread info 结构 所 占 的 页 ， 并 释放 
tast_struct 所 占 的 slab 高 速 缓存 。 

至 此 ， 进 程 描述 符 和 所 有 进程 独 享 的 资产 就 全 部 释放 掉 了 。 


3.5.2 ”孤儿 进程 造成 的 进退 维 谷 


如 果 父 进程 在 子 进程 之 前 退出 ， 必 须 有 机 制 来 保证 子 进程 能 找到 一 个 新 的 父亲 ， 否 则 这 些 成 
为 孤儿 的 进程 就 会 在 退出 时 永远 处 于 僵 死 状态 ， 白 白地 耗费 内 存 。 前 面 的 部 分 已 经 有 所 瞳 示 ， 对 
于 这 个 问题 ， 解 决 方法 是 给 子 进程 在 当前 线程 组 内 找 一 个 线程 作为 父亲 ， 如 果 不 行 ， 就 让 init 做 
它们 的 父 进 程 。 在 do_exit0 中 会 调用 exit_notifyO0， 该 函数 会 调用 forget_original_parent()， 而 后 
者 会 调用 find_new_reaper( 来 执行 寻 父 过 程 : 


static struct task struct *find new reaper(struct task struct *father) 


! 
struct pid namespace *pid ns = task active pid nslfather); 
struct task struct *thread; 


thread = father; 
while each thread(father, thread) |{ 
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if (thread->flags & PF EXITING) 
continue.; 
if {unlikely'{pid ns->child reaper == father}} 
Pid ns->child reaper = thread; 
return thread:; 


} 


if (unlikely {pid ns->child reaper == father)) { 
write unlock irqlg&tasklist lock),; 
if (unlikely(pid ns == &init pid nsl ) 
panicl"Attempted to kill init!"™); 


zap pid ns processes (pid ns); 

write lock irql&tasklist lock); 

| 
* We can not clear ->child reaper or leave it alone. 
* There may by stealth EXIT DEAD tasks on ->children, 
* forget original Parent () mst move them somewhere. 
四 

Pid ns->child reaper = init pid ns.child reaper; 

| 


return pid ns->child reaper; 


这 段 代码 试图 找到 进程 所 在 的 线程 组 内 的 其 他 进程 。 如 果 线 程 组 内 没有 其 他 的 进程 ， 它 研 找 
到 并 返回 的 是 init 进程 。 现 在 ， 给 子 进程 找到 合适 的 养父 进程 了 ， 只 需要 遍历 所 有 子 进程 并 为 它 
们 设置 新 的 父 进程 : 


reaper = find new reaper lfather),; 
list for each entry safelp, n, &father->children, sibling) | 
Pp->real parent = reaper; 
if {p->parent == father) { 
BUG ON{p->ptrace); 
Pp->parent = p->real parent., 
} 


reparent thread{lp, father); 


} 


然后 调用 ptrace_exit_finish() 同样 进行 新 的 寻 父 过 程 ， 不 过 这 次 是 给 ptraced 的 子 进程 寻 
找 父 亲 。 
void exit ptracelstruct task struct *tracer) 
{ 


struct task struct *p, *n; 
LIST HEAD{ptrace dead)}; 


Write lock irqlgtasklist lock).; 
list for each entry safe(p, n, &tracer->ptraced, ptrace entry) { 
if ( ptrace detachltracer, p}} 
list add(&p->ptrace entry, tptrace dead); 


本 用 了 全 


} 


write unlock irglgtasklist lock).; 
BUG ON(!liat emptyl&tracer->ptraced)); 


list for each entry safelp, n, gptrace dead, ptrace entry) { 
liast del init{gp->ptrace entry); 
release tagsk lp); 

} 

} 

这 段 代 码 遍 廊 了 两 个 链表 : 子 进程 链表 和 ptrace 子 进程 链表 ， 给 每 个 子 进程 设置 新 的 父 进 
程 。 这 两 个 链表 同时 存在 的 原因 很 有 意思 ， 它 也 是 2.6 内 核 的 一 个 新 特性 。 当 一 个 进程 被 跟踪 
时 ， 它 的 临时 父亲 设 定 为 调试 进程 。 此 时 如 果 它 的 父 进程 退出 了 ， 系 统 会 为 它 和 它 的 所 有 兄弟 重 
新 找 一 个 父 进 程 。 在 以 前 的 内 核 中 ， 这 就 需要 遍历 系统 所 有 的 进程 来 找 这 些 子 进程 。 现 在 的 解决 
办 法 是 在 一 个 单独 的 被 ptrace 跟踪 的 子 进程 链表 中 搜索 相关 的 兄弟 进程 一 一 用 两 个 相对 较 小 的 链 
表 减 轻 了 遍历 带 来 的 消耗 。 

一 旦 系统 为 进程 成 功 地 找到 和 设置 了 新 的 父 进程 ， 就 不 会 再 有 出 现 驻 留 僵 死 进程 的 危险 了 。 
init 进程 会 例 行 调用 waitO 来 检查 其 子 进 程 ， 清 除 所 有 与 其 相关 的 价 死 进程 。 


3.6 ”小 结 


在 本 章 中 ， 我 们 考察 了 操作 系统 中 的 核心 概念 一 一 进程 。 我 们 也 讨论 了 进程 的 一 般 特 性 ， 
它 为 何如 此 重要 ， 以 及 进程 与 线程 之 间 的 关系 。 然 后 ， 讨 论 了 Linux 如 何 存放 和 表示 进程 〈 用 
task struct 和 thread_info)， 如 何 创建 进程 (通过 fork()， 实 际 上 最 终 是 clone0)， 如 何 把 新 的 执 
行 映像 装 入 到 地 址 空间 (通过 exec( 系统 调用 族 }， 如 何 表 示 进 程 的 层次 关系 ， 父 进程 又 是 如 
何 收 集 其 后 代 的 信息 (通过 wait0O 系统 调用 族 )， 以 及 进程 最 终 如 何 消 亡 〈 强 制 或 自愿 地 调用 
exit() )。 进 程 是 一 个 非常 基础 、 非 常 关键 的 抽象 概念 ， 位 于 每 一 种 现代 操作 系统 的 核心 位 置 ， 也 
是 我 们 拥有 操作 系统 (用 来 运行 程序 ) 的 最 终 原因 。 

第 4 章 讨论 进程 调度 ， 内 核 以 这 种 微妙 而 有 趣 的 方式 来 决定 哪个 进程 运行 ， 何 时 运行 ， 以 何 
种 顺序 运行 。 


第 (4) 章 
进程 调 上 展 


第 3 章 讨 论 了 进程 ， 它 在 操作 系统 看 来 是 程序 的 运行 态 表 现形 式 。 本 章 将 讨论 进程 调度 程 
序 ， 它 是 确保 进程 能 有 效 工 作 的 一 个 内 核子 系统 。 

调度 程序 负责 决定 将 哪个 进程 投入 运行 ， 何 时 运行 以 及 运行 多 长 时 间 。 进 程 调 度 程序 〈 党 党 
简称 调度 程序 ) 可 看 做 在 可 运行 态 进程 之 间 分 配 有 限 的 处 理 器 时 间 资 源 的 内 核子 系统 。 调 度 程 序 
是 像 Linux 这 样 的 多 任务 操作 系统 的 基础 。 只 有 通过 调度 程序 的 合理 调度 ， 系 统 资源 才能 最 大 限 
度 地 发 挥 作用 ， 多 进程 才 会 有 并 发 执行 的 效果 。 

调度 程序 设 有 太 复 杂 的 原理 。 最 大 限度 地 利用 处 理 器 时 间 的 原则 是 ， 只 要 有 可 以 执行 的 进 
程 ， 那 么 斌 总 会 有 进程 正在 执行 。 但 是 只 要 系统 中 可 运行 的 进程 的 数目 比 处 理 器 的 个 数 多 ， 就 注 
定 某 一 给 定时 刻 会 有 一 些 进程 不 能 执行 。 这 些 进程 在 等 待 运行 。 在 一 组 处 于 可 运行 状态 的 进程 中 
选择 一 个 来 执行 ， 是 调度 程序 所 需 完 成 的 基本 工作 。 


4.1 多 任务 


多 任务 操作 系统 就 是 能 同时 并 发 地 交互 执行 多 个 进程 的 操作 系统 。 在 单 处 理 器 机 器 上 ， 这 
会 产生 多 个 进程 在 同时 运行 的 幻觉 。 在 多 处 理 器 机 器 上 ， 这 会 使 多 个 进程 在 不 同 的 处 理 机 上 真正 
同时 、 并 行 地 运行 。 无 论 在 单 处 理 器 或 者 多 处 理 器 机 器 上 ， 多 任务 操作 系统 都 能 使 多 个 进程 处 于 
堵塞 或 者 睡眠 状态 ， 也 就 是 说 ， 实 际 上 不 被 投入 执行 ， 直 到 工作 确实 就 结 。 这 些 任务 尽管 位 于 内 
存 ， 但 并 不 处 于 可 运行 状态 。 相 反 ， 这 些 进程 利用 内 核 阻 塞 自 己 ， 直 到 某 一 事件 〈 键 盘 输 入 、 网 
络 数据 、 过 一 段 时 间 等 ) 发 生 。 因 此 ， 现 代 Linux 系统 也 许 有 100 个 进程 在 内 存 ， 但 是 只 有 一 个 
处 于 可 运行 状态 。 

多 任务 系统 可 以 划分 为 两 类 : 非 抢 占 式 多 任务 〈cooperative mujltitasking) 和 抢占 式 多 任务 
(preemptive mnultitasking)。 像 所 有 Unix 的 变 体 和 许多 其 他 现代 操作 系统 一 样 ，Linux 提供 了 抢占 
式 的 多 任务 模式 。 在 此 模式 下 ， 由 调度 程序 来 决定 什么 时 候 停 止 一 个 进程 的 运行 ， 以 便 其 他 进程 
能 够 得 到 执行 机 会 。 这 个 强制 的 挂 起 动作 就 叫做 抢占 (preemption)。 进 程 在 被 抢占 之 前 能 够 运行 
的 时 间 是 预先 设置 好 的 ， 而 且 有 一 个 专门 的 名 字 ， 叫 进程 的 时 间 片 (timeslice)。 时 间 片 实际 上 
就 是 分 配给 每 个 可 运行 进程 的 处 理 器 时 间 段 。 有 效 管理 时 间 片 能 使 调度 程序 从 系统 全 局 的 角度 做 
出 调度 决定 ， 这 样 做 还 可 以 避免 个 别 进程 独占 系统 资源 。 当 今 众多 现代 操作 系统 对 程序 运行 都 采 
用 了 动态 时 间 片 计算 的 方式 ， 并 且 引 入 了 可 配置 的 计算 策略 。 不 过 我 们 将 看 到 ，Linux 独一无二 
的 “公平 ”调度 程度 本 身 并 设 有 采取 时 间 瞩 来 达到 公平 调度 。 

相反 ， 在 非 抢占 式 多 任务 模式 下 ， 除 非 进程 自己 主动 停止 运行 ， 否 则 它 会 一 直 执 行 。 进 程 主 
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动 挂 起 自己 的 操作 称 为 让 步 (yielding)。 理 想 情况 下 ， 进 程 通常 做 出 让 步 ， 以 便 让 每 个 可 运行 进 
程 享 有 是 够 的 处 理 器 时 间 。 但 这 种 机 制 有 很 多 缺点 : 调度 程序 无 法 对 每 个 进程 读 执 行 多 长 时 间 做 
出 统一 规定 ， 所 以 进程 独占 的 处 理 器 时 间 可 能 超出 用 户 的 预料 ; 更 精 的 是 ， 一 个 决 不 做 出 让 步 的 
悬挂 进程 就 能 使 系统 崩 读 。 幸 运 的 是 ， 近 20 年 以 来 ， 绝 大 部 分 的 操作 系统 的 设计 都 采用 了 抢占 
式 多 任务 一 一 除了 Mac OS 9 (以 及 其 前 身 )、 还 有 Windows 3.1 (以 及 其 前 身 ) 这 些 出 名 且 麻 烦 
的 异端 以 外 。 毫 无 疑问 ，Unix 从 一 开始 就 采用 的 是 抢先 式 的 多 任务 。 


4.2 Linux 的 进程 调度 

从 1991 年 Linux 的 第 1 版 到 后 来 的 2.4 内 核 系列 ，Linux 的 调度 程序 都 相当 简陋 ， 设 计 近 平 
原始 。 当 然 它 很 容易 理解 ， 但 是 它 在 众多 可 运行 进程 或 者 多 处 理 器 的 环境 下 都 难以 胜任 。 

正 因 为 如 此 ， 在 Linux 2.5 开发 系列 的 内 核 中 ， 调 度 程序 做 了 大 手术 。 开 始 采用 了 一 种 叫做 
O(1) 调度 程序 的 新 调度 程序 一 一 它 是 因为 其 算法 的 行为 而 得 名 的 日 。 它 解决 了 先前 版 本 Linux 调 
度 程序 的 许多 不 足 ， 引 人 了 许多 强大 的 新 特性 和 性 能 特征 。 这 里 主要 要 感谢 静态 时 间 片 算法 和 针 
对 每 一 处 理 器 的 运行 队列 ， 它 们 帮助 我 们 摆脱 了 先前 调度 程序 设计 上 的 限制 。 

O(1) 调度 器 虽然 在 拥有 数 以 十 计 《〈 不 是 数 以 百 计 ) 的 多 处 理 器 的 环境 下 尚 能 表现 出 近 平 完 
美的 性 能 和 可 扩展 性 ， 但 是 时 间 证 明 该 调度 算法 对 于 调度 那些 响应 时 间 敏 感 的 程序 却 有 一 些 先 
天 不 足 。 这 些 程 序 我 们 称 其 为 交互 进程 一 一 它 无 疑 包 括 了 所 有 需要 用 户 交 互 的 程序 。 正 因为 如 
此 ，O(1) 调度 程序 虽然 对 于 大 服务 器 的 工作 负载 很 理想 ， 但 是 在 有 很 多 交互 程序 要 运行 的 桌面 
系统 上 则 表现 不 佳 ， 因 为 其 缺少 交互 进程 。 自 2.6 内 核 系统 开发 初期 开发 人 员 为 了 提高 对 交 
互 程 序 的 调度 性 能 引 作 了 新 的 进程 调度 算法 。 其 中 最 为 著名 的 是 “ 反 转 楼 梯 最 后 期 限 调度 算法 
(Rotating Staircase Deadline scheduler)”(RSDL})， 访 算法 吸取 了 队列 理论 ， 将 公平 调度 的 概念: 引 
人 了 Linux 调度 程序 。 并 且 最 终 在 2.6.23 内 核 版 本 中 替代 了 O(1) 调度 算法 ， 它 此 刻 被 称 为 “ 完 
全 公平 调度 算法 ”， 或 者 简称 CFS. 

本 草 将 讲解 调度 程序 设计 的 基础 和 完全 公平 调度 程序 如 何 运用 、 如 何 设计 、 如 何 实现 以 及 与 
它 相 关 的 系统 调用 。 我 们 当然 也 会 讲解 O(1) 调度 程序 ， 因 为 它 毕竟 是 经 典 Unix 调度 程序 模型 的 


4.3 策略 


策略 决定 调度 程序 在 何 时 让 什么 进程 运行 。 调 度 器 的 策略 往往 就 决定 系统 的 整体 印象 ， 并 
且 ， 还 要 负责 优化 使 用 处 理 器 时 间 。 无 论 从 哪个 方面 来 看 ， 它 都 是 至 关 重 要 的 。 


4.3.1 “I/O 消耗 型 和 处 理 器 消耗 型 的 进程 
进程 可 以 被 分 为 VO 消耗 型 和 处 理 咒 消耗 型 。 前 者 指 进程 的 大 部 分 时 间 用 来 提交 IO 请 求 或 
是 等 待 IO 请求 。 因 此 ， 这 样 的 进程 经 常 处 于 可 运行 状态 ， 但 通常 都 是 运行 短 短 的 一 会 儿 ， 因 为 


日 、0(1) 用 的 是 大 表示 法 。 简 而 言 之 ， 它 是 指 不 管 输入 有 多 大 ， 调 讼 程序 都 可 以 在 恒定 时 间 内 完成 工作 。 第 656 章 
是 一 份 完整 的 大 O 表示 法 说 明 。 
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它 在 等 待 更 多 的 VO 请 求 时 最 后 总 会 阻塞 (这 里 所 说 的 VO 是 指 任何 类 型 的 可 阻塞 资产， 比如 键 
盘 输 入 ， 或 者 是 网 络 WO)。 举 例 来 说 ， 多 数 用 户 图 形 界面 程序 (GUI) 都 属于 YO 密集 型 ， 即 便 它 
们 从 不 读 取 或 者 写 人 磁盘 ， 它 们 也 会 在 多 数 时 间 里 都 在 等 待 来 自 鼠 标 或 者 键盘 的 用 户 交 互 操作 。 

相反 ， 处 理 器 耗费 型 进程 把 时 间 大 多 用 在 执行 代码 上 。 除 非 被 抢占 ， 否 则 它们 通常 都 一 直 
不 停 地 运行 ， 因 为 它们 没有 太 多 的 IO 需求 。 但 是 ， 因 为 它们 不 属于 IO 驱动 类 型 ， 所 以 从 系统 
响应 速度 考虑 ， 调 度 器 不 应 该 经 常 让 它们 运行 。 对 于 这 类 处 理 器 消耗 型 的 进程 ， 调 度 策略 往往 是 
尽量 降低 它们 的 调度 频率 ， 而 延长 其 运行 时 间 。 处 理 器 消耗 型 进程 的 极端 例子 就 是 无 限 循环 地 执 
行 。 更 具 代 表 性 的 例子 是 那些 执行 大 量 数 学 计算 的 程序 ， 如 sshkeygen 或 者 MAILAB。 

当然 ， 这 种 划分 方法 并 非 是 绝对 的 。 进 程 可 以 同时 展示 这 两 种 行为 : 比如 ，X Window 服务 
器 既是 WO 消耗 型 ， 也 是 处 理 器 消耗 型 。 还 有 些 进程 可 以 是 IO 消耗 型 ， 但 属于 处 理 器 消耗 型 活 
动 的 范围 。 其 典型 的 例子 就 是 字 处 理 器 ， 其 通常 坐 以 等 待 键盘 输入 ， 但 在 任 一 时 刻 可 能 又 粘 住处 
理 器 疯狂 地 进行 拼写 检查 或 者 宏 计 算 。 

调度 策略 通常 要 在 两 个 矛盾 的 目标 中 间 寻 找平 衡 : 进程 啊 应 迅速 《响应 时 间 短 ) 和 最 大 系统 
利用 率 〈 高 吞吐 量 )。 为 了 满足 上 述 需求 ， 调 度 程序 通常 采用 一 套 非 党 复杂 的 算法 来 决定 最 值得 
运行 的 进程 投入 运行 ， 但 是 它 往往 并 不 保证 低 优先 级 进程 会 被 公平 对 待 。Unix 系统 的 调度 程序 
更 倾向 于 IO 消耗 型 程序 ， 以 提供 更 好 的 程序 啊 应 速度 。Linux 为 了 保证 交互 式 应 用 和 桌面 系统 
的 性 能 ， 所 以 对 进程 的 响应 做 了 优化 (缩短 响应 时 间 )， 更 倾向 于 优先 调度 WO 消耗 型 进程 。 虽 
然 如 此 ， 但 在 下 面 你 会 看 到 ， 调 度 程序 也 并 未 忽略 处 理 背 消耗 型 的 进程 。 


4.3.2 ”进程 优先 级 


调度 算法 中 最 基本 的 一 类 就 是 基于 优先 级 的 调度 。 这 是 一 种 根据 进程 的 价值 和 其 对 处 理 器 时 
间 的 需求 来 对 进程 分 级 的 想法 。 通 常 做 法 是 (其 并 未 被 Linux 系统 完全 采用 ) 优先 级 高 的 进程 先 
运行 ， 低 的 后 运行 ， 相 同 优先 级 的 进程 按 轮转 方式 进行 调度 一 个 接 一 个 ， 重 复 进 行 )。 在 某 些 
系统 中 ， 优 先 级 高 的 进程 使 用 的 时 间 片 也 较 长 。 调 度 程序 总 是 选择 时 间 片 未 用 尽 而 且 优 先 级 最 高 
的 进程 运行 。 用 户 和 系统 都 可 以 通过 设置 进程 的 优先 级 来 影响 系统 的 调度 。 

Linux 采用 了 两 种 不 同 的 优先 级 范围 。 第 一 种 是 用 nice 值 ， 它 的 范围 是 从 一 20 到 +19， 点 
认 值 为 0 ; 越 大 的 nice 值 意味 着 更 低 的 优先 级 一 一 nice 似乎 意味 着 你 对 系统 中 的 其 他 进程 更 “ 优 
待 ?”。 相 比 高 nice 值 ( 低 优先 级 ) 的 进程 ， 低 nice 值 (高 优先 级 ) 的 进程 可 以 获得 更 多 的 处 理 器 
时 间 。nice 值 是 所 有 Unix 系统 中 的 标准 化 的 概念 一 一 但 不 同 的 Unix 系统 由 于 调度 算法 不 同 ， 因 
此 nice 值 的 运用 方式 有 所 差异 。 比 如 一 些 基于 Unix 的 操作 系统 ， 如 Mac OS X， 进 程 的 mice 值 
代表 分 配给 进程 的 时 间 片 的 绝对 值 ; 而 Linux 系统 中 ，nice 值 则 代表 时 间 片 的 比例 。 你 可 以 通过 
ps-el 命令 查看 系统 中 的 进程 列表 ， 结 果 中 标记 Nl 的 一 列 就 是 进程 对 应 的 nice 值 。 

第 二 种 范围 是 实时 优先 级 ， 其 值 是 可 配置 的 ， 默 认 情 况 下 它 的 变化 范围 是 从 0 到 99 (包括 0 
和 99)。 与 nice 值 意义 相反 ， 越 高 的 实时 优先 级 数值 意味 着 进程 优先 级 越 高 。 任 何 实时 进程 的 优 
先 级 都 高 于 普通 的 进程 ， 也 就 是 说 实时 优先 级 和 nice 优先 级 处 于 互 不 相交 的 两 个 范畴 。Linux 实 
时 优先 级 的 实现 参考 了 Unix 相关 标准 一 一 特别 是 POSIX.1b。 大 部 分 现代 的 Unix 操作 系统 也 都 
提供 类 似 的 机 制 。 你 可 以 通过 命令 : 
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ps3-eo state,uid,pid,ppid,rtprio,time, comm. 


查看 到 你 系统 中 的 进程 列表 ， 以 及 它们 对 应 的 实时 优先 级 (位 于 RTPRIO 列 下 )， 其 中 如 果 有 进 
程 对 应 列 显 示 “-”， 则 说 明 它 不 是 实时 进程 。 


4.3.3 ”时 间 片 


时 间 片 品 是 一 个 数值 ， 它 表明 进程 在 被 抢占 前 所 能 持续 运行 的 时 间 。 调 度 策略 必须 规定 一 
个 默认 的 时 间 片 ， 但 这 并 不 是 件 简单 的 事 。 时 间 片 过 长 会 导致 系统 对 交互 的 啊 应 表现 欠 佳 ， 让 
人 觉得 系统 无 法 并 发 执行 应 用 程序 ; 时 间 片 太 得 会 明显 增 大 进程 切换 带 来 的 处 理 器 耗 时 ， 因 
为 肯定 会 有 相当 一 部 分 系统 时 间 用 在 进程 切换 上 ， 而 这 些 进 程 能 够 用 来 运行 的 时 间 片 却 很 短 。 
此 外 ，LO 消耗 型 和 处 理 器 消耗 型 的 进程 之 间 的 巴 盾 在 这 里 也 再 次 显露 出 来 : IO 消耗 型 不 需要 
长 的 时 间 片 ， 而 处 理 器 消耗 型 的 进程 则 希望 越 长 越 好 《比如 这 样 可 以 让 它们 的 高 速 缓存 命中 率 
更 高 )。 

从 上 面 的 争论 中 可 以 看 出 ， 任 何 长 时 间 片 都 将 导致 系统 交互 表现 欠 佳 。 很 多 操作 系统 中 都 特 
别 重视 这 一 点 ， 所 以 默认 的 时 间 片 很 短 ， 如 10ms。 但 是 Linux 的 CFS 调度 器 并 没有 直接 分 配 时 
间 片 到 进程 ， 它 是 将 处 理 器 的 使 用 比划 分 给 了 进程 。 这 样 一 来 ， 进 程 所 获得 的 处 理 器 时 间 其 实 是 
和 系统 负载 密切 相关 的 。 这 个 比例 进一步 还 会 受 进程 nice 值 的 影响 ，nice 值 作为 权重 将 调整 进程 
所 使 用 的 处 理 器 时 间 使 用 比 。 具 有 更 高 nice 值 (更 低 优先 权 ) 的 进程 将 被 赋予 低 权 重 ， 从 而 丧 
失 一 小 部 分 的 处 理 器 使 用 比 ; 而 具有 更 小 nice 值 (更 高 优先 级 ) 的 进程 则 会 被 赋予 高 权重 ， 从 
而 抢 得 更 多 的 处 理 器 使 用 比 。 

像 前 面 所 说 的 ，Linux 系统 是 抢占 式 的 。 当 一 个 进程 进入 可 运行 态 ， 它 就 被 准许 投入 运行 。 
在 多 数 操作 系统 中 ， 是 否 要 将 一 个 进程 立刻 投入 运行 (也 就 是 抢占 当前 进程 ;， 是 完全 由 进程 优 
先 级 和 是 否 有 时 间 片 决定 的 。 而 在 Linux 中 使 用 新 的 CFS 调度 器 ， 其 抢占 时 机 取决 于 新 的 可 运 
行程 序 消 耗 了 多 少 处 理 器 使 用 比 。 如 果 消 耗 的 使 用 比比 当前 进程 小 ， 则 新 进程 立刻 投入 运行 ， 抢 
占 当前 进程 。 否 则 ， 将 推迟 其 运行 。 


4.3.4 ”调度 策略 的 活动 


想象 下 面 这 样 一 个 系统 ， 它 拥有 两 个 可 运行 的 进程 : 一 个 文字 编辑 程序 和 一 个 视频 编码 
程序 。 文 字 编 辑 程序 显然 是 MO 消耗 型 的 ， 因 为 它 大 部 分 时 间 都 在 等 待 用 户 的 键盘 输入 无论 
用 户 的 输入 速度 有 多 快 ， 都 不 可 能 赶 上 处 理 的 速度 )。 用 户 总 是 希望 按 下 键 系统 就 能 马上 响应 。 
相反 ， 视 频 编 码 程序 是 处 理 器 消耗 型 的 。 除 了 最 开始 从 磁盘 上 读 出 原始 数据 流 和 最 后 把 处 理 好 
的 视频 输出 外 ， 程 序 所 有 的 时 间 都 用 来 对 原始 数据 进行 视频 编码 ， 处 理 器 很 轻易 地 被 100% 使 
用 。 它 对 什么 时 间 开 始 运行 没有 太 严 格 的 要 求 一 一 用 户 几 乎 分 辨 不 出 也 并 不 关心 它 到 底 是 立刻 
就 运行 还 是 半 种 钟 以 后 才 开 始 的 。 当 然 ， 它 完成 得 越 早 越 好 ， 至 于 所 花 时 间 并 不 是 我 们 关注 的 
主要 问题 。 


昌 ”在 其 他 系统 中 ， 时 间 片 有 时 也 称 为 量子 quantum) 或 处 理 器 片 (processor slice)。 但 Linux 把 它 叫 做 时 间 片 ， 
因此 你 也 最 好 这 样 叫 。 
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在 这 样 的 场景 中 ， 理 想 情 况 是 调度 器 应 该 给 予 文本 编辑 程序 相 比 视频 编码 程序 更 多 的 处 理 
器 上 时间， 因为 它 属 于 交互 式 应 用 。 对 文本 编辑 器 而 言 ， 我 们 有 两 个 目标 。 第 一 是 我 们 希望 系统 
给 它 更 多 的 处 理 器 时 间 ， 这 并 非 因为 它 需 要 更 多 的 处 理 器 时 间 (其 实 它 不 需要 )， 是 因为 我 们 希 
望 在 它 需 要 时 总 是 能 得 到 处 理 器 ; 第 二 是 我 们 希望 文本 编辑 器 能 在 其 被 唤醒 时 〈 也 就 是 当 用 户 打 
字 时 ) 抢占 视频 解码 程序 。 这 样 才能 确保 文本 编辑 器 具有 很 好 的 交互 性 能 ， 以 便 能 响应 用 户 输 
和信 。 在 多 数 操作 系统 中 ， 上 述 目 标的 达成 是 要 依靠 系统 分 配给 文本 编辑 器 比 视频 解码 程序 更 高 的 
优先 级 和 更 多 的 时 间 片 。 先 进 的 操作 系统 可 以 自动 发 现 文本 编辑 器 是 交互 性 程序 ， 从 而 自动 地 完 
成 上 述 分 配 动作 。Linux 操作 系统 同样 需要 妃 求 上 述 目标 ， 但 是 它 采 用 不 同方 法 。 它 不 再 通过 给 
文本 编辑 器 分 配给 定 的 优先 级 和 时 间 片 ， 而 是 分 配 一 个 给 定 的 处 理 器 使 用 比 。 假 如 文本 编辑 器 
和 视频 解码 程序 是 仅 有 的 两 个 运行 进程 ， 并且 又 具有 同样 的 nice 值 ， 那 么 处 理 器 的 使 用 比 将 都 
是 50% 一 一 它们 平分 了 处 理 器 时 间 。 但 因为 文本 编辑 器 将 更 多 的 时 间 用 于 等 待 用 户 输 入 ， 因 此 它 
肯定 不 会 用 到 处 理 避 的 50%。 同 时 ， 视 频 解 码 程序 无 疑 将 能 有 机 会 用 到 超过 50% 的 处 理 器 时 间 ， 
以 便 它 能 更 快速 地 完成 解码 任务 。 

这 里 关键 的 问题 是 ， 当 文本 编辑 器 程序 被 唤醒 时 将 发 生 什 么 。 我 们 首要 目标 是 确保 其 能 在 用 
户 输入 发 生 时 立刻 运行 。 在 上 述 场景 中 ， 一 旦 文本 编辑 器 被 唤醒 ，CFS 注意 到 给 它 的 处 理 器 使 用 
比 是 50%， 但 是 其 实 它 却 用 得 少 之 又 少 。 特 别 是 ，CFS 发 现 文本 编辑 器 比 视频 解码 器 运行 的 时 间 
短 得 多 。 这 种 情况 下 ， 为 了 兑现 让 所 有 进程 能 公平 分 享 处 理 器 的 承诺 ， 它 会 立刻 抢占 视频 解码 程 
序 ， 让 文本 编辑 器 投入 运行 。 文 本 编辑 器 运行 后 ， 立 即 处 理 了 用 户 的 击 键 输入 后 ， 又 一 次 进入 睡 
眠 等 待 用 户 下 一 次 输入 。 因 为 文本 编辑 器 并 没有 消费 掉 承 诺 给 它 的 50% 处 理 器 使 用 比 ， 因 此 情 
况 依 旧 ，CFS 总 是 会 毫 不 狂 隐 地 让 文本 编辑 器 在 需要 时 被 投入 运行 ， 而 让 视频 处 理 程序 只 能 在 剩 
下 的 时 刻 运 行 。 


4.4 Linux 调度 算法 


在 前 面 内 容 中 ， 我 们 抽象 地 讨论 了 进程 调度 原理 ， 只 是 偶尔 提 及 Linux 如 何 把 给 定 的 理论 应 
用 到 实际 中 。 在 已 有 的 调度 原理 基础 上 ， 我 们 进一步 探讨 具有 Linux 特色 的 进程 调度 程序 。 


4.4.1 调度 器 类 


Linux 调度 器 是 以 模块 方式 提供 的 ， 这 样 做 的 目的 是 允许 不 同类 型 的 进程 可 以 有 针对 性 地 选 
择 调 度 算法 。 

这 种 模块 化 结构 被 称 为 调度 器 类 (scheduler classes)， 它 允许 多 种 不 同 的 可 动态 添加 的 调度 
算法 并 存 ， 调 度 属 于 自己 范畴 的 进程 。 每 个 调度 器 都 有 一 个 优先 级 ， 基 础 的 调度 器 代码 定义 在 
kernelsched.c 文件 中 ， 它 会 按照 优先 级 顺序 遍历 调度 类 ， 拥 有 一 个 可 执行 进程 的 最 高 优先 级 的 调 
度 器 类 胜出 ， 去 选择 下 面 要 执行 的 那 一 个 程序 。 

完全 公平 调度 (CFS) 是 一 个 针对 普通 进程 的 调度 类 ， 在 Linux 中 称 为 SCHED_NORMAL 
(在 POSIX 中 称 为 SCHED_ OTHER) , CFS 算法 实现 定义 在 文件 kernelsched fair.c 中 。 本 证 下 面 
的 内 容 将 重点 讨论 CFS 算法 一 一 读 内 容 对 于 所 有 2.6.23 以 后 的 内 核 版 本 意义 非凡 。 另 外， 我 们 
将 在 4.4.2 小 节 讨 论 实 时 进程 的 调度 类 。 
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4.4.2 Unix 系统 中 的 进程 调度 


在 讨论 公平 调度 算法 前 ， 我 们 必须 首先 认识 一 下 传统 Unix 系统 的 调度 过 程 。 正 如 前 面 所 
述 ， 现 代 进 程 调度 器 有 两 个 通用 的 概念 : 进程 优先 级 和 时间 片 。 时 间 片 是 指 进程 运行 多 少时 间 ， 
进程 一 旦 启动 就 会 有 一 个 默认 时 间 片 。 具 有 更 高 优先 级 的 进程 将 运行 得 更 频繁 ， 而 且 (在 多 数 系 
统 上 ) 也 会 被 赋予 更 多 的 时 间 片 。 在 Unix 系统 上 ， 优 先 级 以 nice 值 形式 输出 给 用 户 空间 。 这 点 
听 起 来 向 单 ， 但 是 在 现实 中 ， 却 会 导致 许多 反 篆 的 问题 ， 我 们 下 面具 体 讨 论 。 

第 一 个 问题 ， 若 要 将 nice 值 映 射 到 时 间 片 ， 就 必然 需要 将 nice 单位 值 对 应 到 处 理 器 的 绝对 
时 间 。 但 这 样 做 将 导致 进程 切换 无 法 最 优化 进行 。 举 例 说 明 ， 假 定 我 们 将 默认 mice 值 (0) 分 配 
给 一 个 进程 一 一 对 应 的 是 一 个 100ms 的 时 间 片 ; 同时 再 分 配 一 个 最 高 nice 值 (+20， 最 低 的 优先 
级 ) 给 另 一 个 进程 一 一 对 应 的 时 间 片 是 5ms。 我 们 接着 假定 上 述 两 个 进程 都 处 于 可 运行 状态 。 那 
么 默认 优先 级 的 进程 将 获得 20/21 (105ms 中 的 100ms) 的 处 理 器 时 间 ， 而 低 优先 级 的 进程 会 获 
得 21 〈105ms 中 的 Sms) 的 处 理 器 时 间 。 我 们 本 可 以 选择 任意 数值 用 于 本 例子 中 ， 但 这 个 分 配 
值 正好 是 最 具 说 服 力 的 ， 所 以 我 们 选择 它 。 现 在 ， 我 们 看 看 如 果 运 行 两 个 同等 低 优先 级 的 进程 情 
况 将 如 何 。 我 们 是 希望 它们 能 各 自 获 得 一 半 的 处 理 器 时 间 ， 事 实 上 也 确实 如 此 。 但 是 任何 一 个 进 
程 每 次 仅仅 只 能 获得 5ms 的 处 理 器 时 间 (‘10ms 中 各 占 一 半 )。 也 就 是 说 ， 相 比 刚才 例子 中 105ms 
内 进行 一 次 上 下 文 切换 ， 现 在 则 需要 在 10ms 内 继续 进行 两 次 上 下 文 切换 。 类 推 ， 如 果 是 两 个 具 
有 普通 优先 级 的 进程 ， 它 们 同样 会 每 个 获得 50% 处 理 器 时 间 ， 但 是 是 在 100ms 内 各 获得 一 半 。 
显然 ， 我 们 看 到 这 些 时 间 片 的 分 配方 式 并 不 很 理想 : 它们 是 给 定 mice 值 到 时 间 片 映射 与 进程 运 
行 优先 级 混合 的 共同 作用 结果 。 事 实 上 ， 给 定 高 nice 值 〈 低 优先 级 ) 的 进程 往往 是 后 台 进 程 ， 
且 多 是 计算 密集 型 ; 而 普通 优先 级 的 进程 则 更 多 是 前 台 有 用户 任务 。 所 以 这 种 时 间 片 分 配方 式 显然 
是 和 初衷 背道而驰 的 。 

第 二 个 问题 涉及 相对 nice 值 ， 同 时 和 前 面 的 nice 值 到 时 间 片 映射 关系 也 脱 不 了 干系 。 假 设 
我 们 有 两 个 进程 ， 分 别 具 有 不 同 的 优先 级 。 第 一 个 假设 nice 值 只 是 0， 第 二 个 假设 是 1。 它 们 将 
被 分 别 映射 到 时 间 片 100ms 和 95ms (O (1) 调度 算法 确实 这 么 干 了 )。 它 们 的 时 间 片 几乎 一 样 ， 
其 差别 微乎其微 。 但 是 如 果 我 们 的 进程 分 别 赋予 18 和 19 的 nice 值 ， 那 么 它们 则 分 别 被 映射 为 
10ms 和 5ms 的 时 间 片 。 如 果 这 样 ， 前 者 相 比 后 者 获得 了 两 倍 的 处 理 器 时 间 ! 不 过 nice 值 通常 都 
使 用 相对 值 (nice 系统 调用 是 在 原 值 上 增加 或 减少 ， 而 不 是 在 绝对 值 上 操作 )， 也 就 是 说 :“ 把 进 
程 的 nice 值 减 小 1” 所 带 来 的 效果 极 大 地 取决 于 其 nice 的 初始 值 。 

第 三 个 问题 ， 如 果 执 行 nice 值 到 时 间 片 的 映射 ， 我 们 需要 能 分 配 一 个 绝对 时 间 片 ， 而 且 这 
个 绝对 时 间 片 必须 能 在 内 核 的 测试 范围 内 。 在 多 数 操作 系统 中 ， 上 述 要 求 意味 着 时 间 片 必须 是 
定时 器 节拍 的 整数 倍 〈 请 先 参看 第 11 章 “ 定 时 器 和 时 间 袖 量 ” 关 于 时 间 的 讨论 )。 但 这 么 做 必然 
会 引发 了 几 个 问题 。 首 先 ， 最 小 时 间 片 必然 是 定时 器 节拍 的 整数 倍 ， 也 就 是 10ms 或 者 1ms 的 倍 
数 。 其 次 ， 系 统 定 时 器 限制 了 两 个 时 间 片 的 差异 ; 连续 的 nice 值 映 射 到 时 间 片 ， 基 差别 范围 多 
至 10ms 或 者 少 则 lms。 最 后 ， 时 间 片 还 会 随 着 定时 器 节拍 改变 (如 果 这 里 所 讨论 的 定时 器 市 拍 
对 你 来 说 很 陌生 ， 快 去 先 看 看 第 11 章 再 说 。 因 为 这 点 正 是 引 人 CFS 的 唯一 原因 )。 

第 四 个 问题 也 是 最 后 一 个 是 关于 基于 优先 级 的 调 育 器 为 了 优化 交互 任务 而 唤醒 相关 进程 的 问 
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题 。 这 种 系统 中 ， 你 可 能 为 了 进程 能 更 快 地 投入 运行 ， 而 去 对 新 要 唤醒 的 进程 提升 优先 级 ， 即 便 
它们 的 时 间 片 已 经 用 尽 了 。 虽 然 上 述 方法 确实 能 提升 不 少 交 互 性 能 ， 但 是 一 些 例外 情况 也 有 可 能 
发 生 ， 因 为 它 同 时 也 给 菜 些 特殊 的 睡眠 /唤醒 用 例 一 个 玩弄 调度 器 的 后 门 ， 使 得 给 定 进 程 打 破 公 
平原 则 ， 获 得 更 多 处 理 器 时 间 ， 损 害 系 统 中 其 他 进程 的 利益 。 

上 述 问 题 中 的 绝 大 多 数 都 可 以 通过 对 传统 Unix 调度 器 进行 改造 解决 ， 虽 然 这 种 改造 修改 不 
小 ， 但 也 并 非 是 结构 性 调整 。 比如， 将 nice 值 呈 几何 增加 而 非 算数 增加 的 方式 解决 第 二 个 问题 ; 
来 用 一 个 新 的 度量 机 制 将 从 mice 值 到 时 间 片 的 映射 与 定时 器 节拍 分 离开 来 ， 以 此 解决 第 三 个 问 
题 。 但 是 这 些 解决 方案 都 回避 了 实质 问题 一 一 即 分 配 绝对 的 时 间 片 引发 的 固定 的 切换 频率 ， 给 公 
平 性 造成 了 很 大 变数 。CFS 采用 的 方法 是 对 时 间 片 分 配方 式 进行 根本 性 的 重新 设计 (就 进程 调度 
器 而 言 ) : 完全 据 弃 时 间 片 而 是 分 配给 进程 一 个 处 理 器 使 用 比重 。 通 过 这 种 方式 ，CFS 确保 了 进 
程 调 度 中 能 有 恒定 的 公平 性 ， 而 将 切换 频率 置 于 不 断 变 动 中 。 


4.4.3 ”公平 调度 


CFS 的 出 发 点 基于 一 个 简单 的 理念 : 进程 调度 的 效果 应 如 同系 统 具备 一 个 理想 中 的 完美 多 
任务 处 理 器 。 在 这 种 系统 中 ， 每 个 进程 将 能 获得 1/n 的 处 理 器 时 间 一 一 n 是 指 可 运行 进程 的 数量 。 
同时 ， 我 们 可 以 调度 给 它们 无 限 小 的 时 间 周 期 ， 所 以 在 任何 可 测量 周期 和 内， 我 们 给 予 n 个 进程 中 
每 个 进程 同样 多 的 运行 时 间 。 举例 来 说 ， 假 如 我 们 有 两 个 运行 进程 ， 在 标准 Unix 调度 模型 中 ， 
我 们 先 运行 其 中 一 个 Sms， 然 后 再 运行 另 一 个 Sms。 但 它们 任何 一 个 运行 时 都 将 占有 100% 的 处 
理 副 。 而 在 理想 情况 下 ， 完 美的 多 任务 处 理 器 模型 应 该 是 这 样 的 : 我 们 能 在 10ms 内 同时 运行 两 
个 进程 ， 它 们 各 自 使 用 处 理 器 一 半 的 能 力 。 

当然 ， 上 述 理想 模型 并 非 现实 ， 因 为 我 们 无 法 在 一 个 处 理 器 上 真 的 同时 运行 多 个 进程 。 而 且 
如 果 每 个 进程 运行 无 限 小 的 时 间 周 期 也 是 不 高 效 的 一 一 因为 调度 时 进程 抢占 会 带 来 一 定 的 代价 : 
将 一 个 进程 换 出 ， 另 一 个 换 入 本 身 有 消耗 ， 同 时 还 会 影响 到 缓存 的 效率 。 因 此 虽然 我 们 希望 所 有 
进程 能 只 运行 一 个 非常 短 的 周期 ， 但 是 CFS 充分 考虑 了 这 将 带 来 的 额外 消耗 ， 实 现 中 首先 要 确 
保 系 统 性 能 不 受 损失 。CFS 的 做 法 是 允许 每 个 进程 运行 一 段 时 间 、 循 环 轮转 、 选 择 运 行 最 少 的 进 
程 作为 下 一 个 运行 进程 ， 而 不 再 采用 分 配给 每 个 进程 时 间 片 的 做 法 了 ，CFS 在 所 有 可 运行 进程 总 
数 基 础 上 计算 出 一 个 进程 应 该 运行 多 久 ， 而 不 是 依靠 nice 值 来 计算 时 间 片 。nice 值 在 CFS 中 被 
作为 进程 获得 的 处 理 器 运行 比 的 权重 : 越 高 的 nice 值 〈( 越 低 的 优先 级 ) 进程 获得 更 低 的 处 理 器 
使 用 权重 ， 这 是 相对 默认 nice 值 进 程 的 进程 而 言 的 ; 相反 ， 更 低 的 nice 值 〈 越 高 的 优先 级 ) 的 
进程 获得 更 高 的 处 理 器 使 用 权重 。 

每 小 进程 部 按 其 权重 在 全 部 可 运行 进程 中 所 占 比 例 的 “时 间 片 ”来 运行 ， 为 了 计算 准确 的 时 
则 片 ，CFS 为 完美 多 任务 中 的 无 限 小 调度 周期 的 近似 值 设立 了 一 个 目标 。 而 这 个 目标 称 作 “ 目标 
延迟 ”， 越 小 的 调度 周期 将 带 来 越 好 的 交互 性 ， 同 时 也 更 接近 完美 的 多 任务 。 但 是 你 必须 承受 更 
太 的 切换 代价 和 更 差 的 系统 总 吞吐 能 力 。 让 我 们 假定 目标 延迟 值 是 20ms， 我们 有 两 个 同样 优先 
级 的 可 运行 任务 〈 无 论 这 些 任务 的 优先 级 是 多 少 )。 每 个 任务 在 被 其 他 任务 抢占 前 运行 10ms， 如 
果 我 们 有 4 个 这 样 的 任务 ， 则 每 个 只 能 运行 Sms。 进 一 步 设 想 ， 如 果 有 20 个 这 样 的 任务 ， 那 么 
每 个 仅仅 只 能 获得 lms 的 运行 时 间 。 
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你 一 定 注 意 到 了 ， 当 可 运行 任务 数量 趋 于 无 限时 ， 它 们 各 自 所 获得 的 处 理 器 使 用 比 和 时 间 片 
都 将 趋 于 0。 这 样 无 疑 造成 了 不 可 接受 的 切换 消耗 。CFS 为 此 引入 每 个 进程 获得 的 时 间 片 底线 ， 
这 个 底线 称 为 最 小 粒度 。 上 默认 情况 下 这 个 值 是 lms。 如 此 一 来 ， 即 便 是 可 运行 进程 数量 趋 于 无 
穷 ， 每 个 最 少 也 能 获得 1ms 的 运行 时 间 ， 确 保 切 换 消 耗 被 限制 在 一 定 范 围 内 。( 敏 锐 的 读者 会 注 
意 到 假如 在 进程 数量 变 得 非常 多 的 情况 下 ，CFS 并 非 一 个 完美 的 公平 调度 ， 因 为 这 时 处 理 器 时 间 
” 片 再 小 也 无 法 突破 最 小 粒度 。 的 确 如 此 ， 尽 管 修 改过 的 公平 队列 方法 确实 能 提高 这 方面 的 公平 
性 ， 但 是 CFS 的 算法 本 身 其 实 已 经 决定 在 这 方面 做 出 折 中 了 。 但 还 好 ， 因 为 通常 情况 下 系统 中 
只 会 有 几 百 个 可 运行 进程 ， 无 疑 ， 这 时 CFS 是 相当 公平 的 。) 

现在 ， 让 我 们 再 来 看 看 具有 不 同 nice 值 的 两 个 可 运行 进程 的 运行 情况 一 一 比如 一 个 具有 昧 
认 mice 值 (0)， 另 一 个 具有 的 nice 值 是 5。 这 些 不 同 的 mice 值 对 应 不 同 的 权重 ， 所 以 上 述 两 个 
进程 将 获得 不 同 的 处 理 器 使 用 比 。 在 这 个 例子 中 ，nice 值 是 5 的 进程 的 权重 将 是 默认 nice 进程 的 
1/3。 如 果 我 们 的 目标 延迟 是 20ms， 那 么 这 两 个 进程 将 分 别 获得 15ms 和 5ms 的 处 理 嚣 时间。 再 
比如 我 们 的 两 个 可 运行 进程 的 nice 值 分 别 是 10 和 15， 它 们 分 配 的 时 间 片 将 是 多 少 呢 ? 还 是 15 
和 5ms ! 可 见 ， 绝 对 的 nice 值 不 再 影响 调度 决策 : 只 有 相对 值 才 会 影响 处 理 器 时 间 的 分 配 比例 。 

总 结 一 下 ， 任 何 进程 所 获得 的 处 理 器 时 间 是 由 它 目 己 和 其 他 所 有 可 运行 进程 nice 值 的 相对 
差 值 决定 的 。nice 值 对 时 间 片 的 作用 不 再 是 算数 加 权 ， 而 是 几何 加 权 。 任 何 nice 值 对 应 的 绝对 时 
间 不 再 是 一 个 绝对 值 ， 而 是 处 理 器 的 使 用 比 。CFS 称 为 公平 调度 器 是 因为 它 确 保 给 每 个 进程 公平 
的 处 理 器 使 用 比 。 正 如 我 们 知道 的 ，CFS 不 是 完美 的 公平 ， 它 只 是 近乎 完美 的 多 任务 。 但 是 它 确 
实在 多 进程 环境 下 ， 降 低 了 调度 延迟 带 来 的 不 公平 性 。 


4.5 Linux 调度 的 实现 


在 讨论 了 采用 CFS 调度 算法 的 动机 和 其 内 部 运 辑 后 ， 我 们 现在 可 以 开始 具体 探索 CFS 是 如 
何 得 以 实现 的 。 其 相关 代码 位 于 文件 kernelsched_fairc 中 . 我 们 将 特别 关注 其 四 个 组 成 部 分 : 

* 时 间 记 账 

* 进程 选择 

* 调度 器 人 口 

“ 睡眠 和 唤醒 


4.5.1 时 间 记 账 


所 有 的 调度 器 都 必须 对 进程 运行 时 间 做 记 账 。 多 数 Unix 系统 ， 正 如 我 们 前 面 所 说 ， 分 配 一 
个 时 间 片 给 每 一 个 进程 。 那 么 当 每 次 系统 时 钟 节拍 发 生 时 ， 时 间 片 都 会 被 减少 一 个 节拍 周期 。 当 
一 个 进程 的 时 间 片 被 减少 到 0 时 ， 它 就 会 被 另 一 个 尚未 减 到 0 的 时 间 片 可 运行 进程 抢占 。 

1. 调度 器 实体 结构 

CFS 不 再 有 时 间 片 的 概念 ， 但 是 它 也 必须 维护 每 个 进程 运行 的 时 间 记 账 ， 因 为 它 需 要 确保 
每 个 进程 只 在 公平 分 配给 它 的 处 理 器 时 间 内 运行 。CFS 使 用 调度 器 实体 结构 〈 定 义 在 文件 <linux/ 
sched.h> 的 struct_sched entity 中 ) 来 追踪 进程 运行 记 账 : 
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struct sched entity | 


struct load weight load; 

struct rb node run node; 

struct list head group node; 
unsigqned int on_rq; 

U64 eXec Btart; 

64 gum exec runtime; 
u64 vruntime; 

U64 prev sum exec runtime; 
U6 last wakeup; 

U64 avg_overlap; 

U64 nr migrationa; 

但 看重 start runtime; . 
U6a avg Wakeup; 


ft 这 里 省 略 了 很 多 统计 变量 ， 只 有 在 设置 了 CONFIG SCHEDSTATS 了 时 才 启 用 这 些 变 量 */ 
} ， 


调度 器 实体 结构 作为 一 个 名 为 se 的 成 员 变量 ， 九 和 在 进程 描述 符 struct task_stmct 内 。 我 们 
已 经 在 第 3 章 讨 论 过 进程 描述 符 。 

2. 虚拟 实时 

vruntime 变量 存放 进程 的 虚拟 运行 时 间 ， 读 运行 时 间 ( 花 在 运行 上 的 时 间 和 ) 的 计算 是 
经 过 了 所 有 可 运行 进程 总 数 的 标准 化 (或 者 说 是 被 加 权 的 )。 虚 所 时 间 是 以 ns 为 单位 的 ， 所 以 
vruntime 和 定时 器 节拍 不 再 相关 。 虚 拟 运 行 时 间 可 以 帮助 我 们 到 近 CFS 模型 所 追求 的 “理想 多 
任务 处 理 器 ”。 如 果 我 们 真有 这 样 一 个 理想 的 处 理 器 ， 那 么 我 们 就 不 再 需要 vruntime 了 。 因 为 优 
先 级 相同 的 所 有 进程 的 虚拟 运行 时 都 是 相同 的 一 一 所 有 任务 都 将 接收 到 相等 的 处 理 器 份额 。 但 是 
因为 处 理 器 无 法 实现 完美 的 多 任务 ， 它 必须 依次 运行 每 个 任务 。 因 此 CFS 使 用 vruntime 变量 来 
记录 一 个 程序 到 底 运行 了 多 长 时 间 以 及 它 还 应 该 再 运行 多 久 。 

定义 在 kernel/sched_fair.c 文件 中 的 update_curr0 国 数 实 现 了 该 记 账 功能 : 


satatic void update curr{lstruct cfs rg *cfs rg) 


{ 


struct sched entity *curr = cfs rgq->curr,) 
u64 mow = rq_of (cfs rq} ->clock; 
unsigqned long delta exec; 


if (unlikely(!curr)) 


return; 
/* 获得 从 最 后 一 次 修改 负载 后 当前 任务 所 占用 的 运行 总 时 间 (在 32 位 系统 上 这 不 会 溢出 ) 
村 六 


delta exec = {unsigned long) (now - curr->exec Btart),; 
if (ldelta exec) 
return; 


_ update currilcfs rq, curr, delta exec); 
CUrr->exec start = now; 


if (lentity is task(curr)) | 
struct task struct *curtaek = task of (curr); 


44 条 44 重 


trace sched stat runtimelcurtask, delta exec, curr-sVruntime); 
cpuacct charge{curtask, delta exec}; 
Account group exec runtime (lcurtask, delta exec)}; 
} 
} 
update_curr0 计算 了 当前 进程 的 执行 时 间 ， 并 且 将 其 存放 在 变量 delta_exec 中 。 然 后 它 又 将 
运行 时 间 传 递 给 了 _update_curr0， 由 后 者 再 根据 当前 可 运行 进程 总 数 对 运行 时 间 进 行 加 权 计 
算 。 最 终 将 上 述 的 权重 值 与 当前 运行 进程 的 vruntime 相 加 。 
A 
* 更 新 当前 任务 的 运行 时 统计 数据 。 跳 过 不 在 调度 类 中 的 当前 任务 
el 
static inline void 


_ Update curristruct cfs rq *cfs rq, struct eched entity *curr, 
unsigned long delta exec) 
| 


unsigned long delta exec weighted; 
achedstat_ set (curr->exec max, maxl(u64)delta exec, Curr->exec max)});} 


CUrr->8UMm exec runtime 十 = delta exec; 
schedstat addlcfs rg, exec clock, delta exec); 
dalta exec weighted = calc delta fairldelta exec, curr)} 


curr->Vvruntime += delta exec weighted; 
update min vruntime{cfs rq); 


} 


update_curr() 是 由 系统 定时 器 周期 性 调用 的 ， 无 论 是 在 进程 处 于 可 运行 态 ， 还 是 被 堵塞 处 于 
不 可 运行 态 。 根 据 这 种 方式 ，vruntime 可 以 准确 地 测量 给 定 进程 的 运行 时 间 ， 而 且 可 知道 谁 应 访 
是 下 一 个 被 运行 的 进程 。 


4.5.2 ”进程 选择 


在 前 面 内 容 中 我 们 的 讨论 中 谈 到 者 存在 一 个 完美 的 多 任务 处 理 右 ， 所 有 可 运行 进程 的 
vruntime 值 将 一 致 。 但 事实 上 我 们 没有 找到 完美 的 多 任务 处 理 器 ， 因 此 CFS 试图 利用 一 个 简单 
的 规则 去 均衡 进程 的 虚拟 运行 时 间 : 当 CFS 需要 选择 下 一 个 运行 进程 时 ， 它 会 挑 一 个 具有 最 小 
vruntime 的 进程 。 这 其 实 就 是 CFS 调度 算法 的 核心 : 选择 具有 最 小 vruntime 的 任务 。 那 么 剩 下 
的 内 容 我 们 就 来 讨论 到 底 是 如 何 实现 选择 具有 最 小 vruntime 值 的 进程 。 

CFS 使 用 红 黑 树 来 组 织 可 运行 进程 队列 ， 并 利用 其 迅速 找到 最 小 vruntime 值 的 进程 。 在 
Linux 中 ， 红 黑 树 称 为 tbtree， 它 是 一 个 自 平 衡 二 叉 搜索 树 。 我 们 将 在 第 6 童 讨论 自 平衡 二 叉 树 
以 及 红 黑 树 。 现 在 如 果 你 还 不 熟悉 它们 ， 不 要 紧 ， 你 只 需要 记 住 红 黑 树 是 一 种 以 树 节 点 形式 存储 
的 数据 ， 这 些 数据 都 会 对 应 一 个 键 值 。 我 们 可 以 通过 这 些 键 值 来 快速 检索 节点 上 的 数据 〈 重 要 的 
是 ， 通 过 键 值 检 索 到 对 应 节点 的 速度 与 整个 树 的 节点 规模 成 指数 比 关 系 )。 
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1. 挑选 下 一 个 任务 

我 们 先 假设 ， 有 那么 一 个 红 墨 树 存储 了 系统 中 所 有 的 可 运行 进程 ， 其 中 节点 的 键 值 便 是 可 运行 
进程 的 虚拟 运行 时 间 。 稍 后 我 们 可 以 看 到 如 何 生 成 该 树 ， 但 现在 我 们 假定 已 经 拥有 它 了 。CFS 调度 
器 选取 待 运行 的 下 一 个 进程 ， 是 所 有 进程 中 vmuntime 最 小 的 那个 ， 它 对 应 的 便 是 在 树 中 量 左 侧 的 叶 
子 节 后。 也 就 是 说 ， 你 从 树 的 根 节 点 沿 着 左边 的 子 节点 向 下 找 ， 一 直 找 到 叶子 节点 ， 你 便 找到 了 其 
vruntime 值 最 小 的 那个 进程 。( 再 说 一 次 ， 如 果 你 不 熟悉 二 叉 搜 索 树 ， 不 用 担心 ， 只 要 知道 它 用 来 加 
速 寻找 过 程 即 可 ) CEFS 的 进程 选择 算法 可 简单 总 结 为 “运行 了 btree 树 中 最 左边 叶子 节点 所 代表 的 那个 
进程 ”。 实 现 这 一 过 程 的 函数 是 “pick_next_entity0， 它 定义 在 文件 kernelsched fairc 中 : 


atatic struct sched entity * pick next entity(struct cfes rg *cfs rq) 


{ 
struct rb node *]left = cfs rgq->rb leftmost; 
if (!lleft) 
return NULL; 
return rb entry{left, struct sched entity, run node); 
} 


注意 _ pick next_entity(0 函数 本 身 并 不 会 遍历 树 找 到 最 左 叶 子 节 点 ， 因 为 该 值 已 经 色 存 在 
rb_ leftmost 字段 中 。 虽 然 红 黑 树 让 我 们 可 以 很 有 效 地 找到 最 堪 叶 了 于 节点 (O( 树 的 高 
度 ) 等 于 树 节 总 总 数 的 DO (log n), 这 是 平衡 树 的 优势 )， 但 是 更 容易 的 做 法 是 把 最 左 
叶子 节点 织 存 起 来 。 这 个 函数 的 返回 值 便 是 CFS 调度 选择 的 下 一 个 运行 进程 。 如 果 
该 函数 返回 值 是 NULL， 那 么 表示 没有 最 左 叶 子 节点 ， 也 就 是 说 树 中 没有 任何 节点 
了 。 这 种 情况 下 ， 表 示 没 有 可 运行 进程 ，CFS 调度 器 便 选 择 idle 任务 运行 。 
2. 向 树 中 加 入 进程 
现在 ， 我 们 来 看 CFS 如 何 将 进程 加 入 rbtree 中 ， 以 及 如 何 缓存 最 左 叶 子 节 点 。 这 一 切 发 生 
在 进程 变 为 可 运行 状态 〈 被 唤醒 ) 或 者 是 通过 fork() 调用 第 一 次 创建 进程 时 一 一 在 第 3 章 我 们 讨 
论 过 它 。enqueue_entity0 函数 实现 了 这 一 目的 : 


atatic void 
enqueue entity(struct cfs rg *cfs rgq, struct sched entity +*se, int flags) 


A 

* 通过 调用 update _curr{)， 在 更 新 min_vruntime 之 前 先 更 新 规范 化 的 vruntime 
i 
if (!(flags & ENQUEUE WAKEUP) || (flags & ENQUEUE MIGRATE)) 

Se->vIuntime += Cfs rg->min vruntime,; 

A 

* 更 新 “当前 任务 ”的 运行 时 统计 数据 

天 


update curricfs rq);} 
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account entity enqueue (cts rq, se}); 


if (flags & ENQUEUE WAKEUP) | 
place entitylcfs rq, se, 0); 
enqueue sleeper (cfs rq, se); 


} 


update stats enqueuelcfs rq, se); 
check spreadlcfs rdq, Se); 
if lse l= cfs rgq->curr} 

__ enqueue entity(cfs rq, se}; 


该 函数 更 新 运行 时 间 和 其 他 一 些 统计 数据 ， 然 后 调用 enqueue_entity( 进行 繁重 的 插 人 操 


/* 把 一 个 调度 实体 插入 红 黑 树 中 */ 
static void enqueue entitylstruct cfs rg *cfs rq, struct sched entity *se) 
| 
struct rb node *#*1link = &cfs rq->taske timeline.rb node; 
atruct rb node *parent = NULL; 
struct sched entity *entry; 
S64 key = entity keyl(cfs rq, se); 
int leftmost = 1; 
/* 在 红 洪 树 中 查找 合适 的 位 置 */ 
while {(*link) { 
parent = *link; 
entry = Ib entryl(parent, struct sched entity, run node); 


A 
* 我 们 并 不 关心 神 突 。 具 有 相同 键 值 的 节点 呆 在 一 起 
“| 


if (key < entity key(cfs rg, entry})) { 
link = tparent->rb left; 

} elee | 
link = 5&parent->rb right,; 
leftmost = 0; 


] 
} 
/* 
* 维护 一 个 缓存 ， 其 中 存放 树 最 左 叶 子 节点 (也 就 是 最 常 使 用 的 ) 
ni] 


if {leftmost) 
cfs rq->rb leftmost = &se->run node; 


rb link node(l&se->run node, parent, link); 
rb insert color{(E&se->run node, &cfs rq->tasks timeline); 
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我 们 来 看 看 上 述 函 数 ，while0 循环 中 遍历 树 以 寻找 合适 的 匹配 键 值 ， 读 值 就 是 被 插入 进 
程 的 vruntime。 平 衡 二 叉 树 的 基本 规则 是 ， 如 果 键 值 小 于 当前 节点 的 键 值 ， 则 需 转 向 树 的 左 分 
支 ; 相反 如 来 大 于 当前 市 反 的 键 值 ， 则 转向 右 分 支 。 如 果 一 旦 走 过 右 边 分 支 ， 哪 怕 一 次 ， 也 说 
明 插 人 的 进程 不 会 是 新 的 最 堪 节 点 ， 因 此 可 以 设置 leftmost 为 0。 如 果 一 直 都 是 向 左 移动 ， 那 么 
leftmost 维持 1， 这 说 明 我 们 有 一 个 新 的 最 左 节 点 ， 并 且 可 以 更 新 缓存 一 一 设置 中 _ leftmost 指向 
被 插入 的 进程 。 当 我 们 沿 着 一 个 方向 和 一 个 设 有 子 节 的 节点 比较 后 : link 如 果 这 时 是 NULL， 循 环 
随 之 终止 。 当 退出 循环 后 ， 接 着 在 父 节 点 上 调用 地 _link_nodeO， 以 使 得 新 插入 的 进程 成 为 其 子 节 
所 。 节 后 函数 中 insert_color0 更 新 树 的 自 平衡 相关 属性 。 关 于 着 色 问 题 ， 我 们 放 在 第 6 章 讨论 。 

3. 从 树 中 删除 进程 

最 后 我 们 看 看 CFS 是 如 何 从 红 黑 树 中 删除 进程 的 。 删 除 动作 发 生 在 进程 堵塞 〈 变 为 不 可 运 
行 态 ) 或 者 终止 时 (结束 运行 ) : 

static void 


dequeue entitylstruct cfs rg *cfe rq, struct sched entity *se, int sleep) 


{ 


过 


* 更 新 “当前 任务 ”的 运行 时 统计 数据 
*/ 
update currilicfs rgq); 


update stats dequeue (cfs rq, se); 
clear buddies lcfs rgq, se);} 


if {ge 上 = cfes rq->curr) 

dequeue entity{cfs rgq, Se}); 
account entity dequeue (cfs rq, se); 
update min vruntime (cfs rq),; 


A 


* 在 更 新 min_vruntime 之 后 对 调度 实体 进行 规范 化 ， 因 为 更 新 可 以 指向 “->curr” 项 ， 我 们 需要 
“在 规范 化 的 位 置 反 肌 这 -变化 


oe {181eep) 
Se->Vruntime -= cfs rg-smin vruntime; 


} 
和 和 给 红 淡 树 添 加 进程 一 样 ， 实 际 工作 是 由 辅助 函数 dequeue_entity0 完成 的 。 


static void dequeue entity(satruct cfs rd *cfs rg, struct sched entity *se) 
{ 
if (cfs rq->rb leftmost == &se->run node) | 
struct rb node *nmnext node; 


next node = rb next (kse->run nodel) ; 
cfs rgq->rb leftmost = next node; 


} 


rb erase (&sSe->run node, &cfs rq->tasks timeline),; 
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从 红 录 树 中 删除 进程 要 容易 得 多 。 因 为 rbtree 实现 了 rb_erase() 国 数 ， 它 可 完成 所 有 工 
作 。 该 函数 的 剩 下 工作 是 更 新 rb_leftmost 缓存 。 如 果 要 删除 的 进程 是 最 左 节点 ， 那 么 该 函数 
要 调用 mb_nextO 按 顺 序 志 历 ， 找 到 谁 是 下 一 个 市 点， 也 就 是 当前 最 左 节 点 被 删除 后 ， 新 的 最 
左 市 扩 。 


4.5.3 调度 器 入 口 


进程 调度 的 主要 人 口 点 是 国 数 schedule()， 它 定义 在 文件 kernel/sched.c 中 。 它 正 是 内 核 其 他 
部 分 用 于 调用 进程 调度 器 的 人 人口 : 选择 哪个 进程 可 以 运行 ， 何 时 将 其 投入 运行 。Schedule() 通常 
都 需要 和 一 个 具体 的 调度 类 相关 联 ， 也 就 是 说 ， 它 会 找到 一 个 最 高 优先 级 的 调度 类 一 一 后 者 需 
要 有 自己 的 可 运行 队列 ， 然 后 问 后 者 谁 才 是 下 一 个 读 运 行 的 进程 。 知 道 了 这 个 背景 ， 就 不 会 吃惊 
schedule() 函数 为 何 实现 得 如 此 简单 。 该 函数 中 唯一 重要 的 事情 是 (要 连 这 个 都 没有 ， 那 这 个 函 
数 真是 乏味 得 不 用 介绍 啦 )， 它 会 调用 pick_next_task() (也 定义 在 文件 kemel/sched.c 中 )。 pick_ 
next_task() 会 以 优先 级 为 序 ， 从 高 到 低 ， 依 次 检查 每 一 个 调度 类 ， 并 且 从 最 高 优先 级 的 调度 类 
中 ， 选 择 最 高 优先 级 的 进程 : 


定 


* 挑选 最 高 优先 级 的 任务 
A 


static inline struct task struct * 

pick next task{(struct rg *rdq) 

| 
const struct sched class *class; 
struct taesk etruct *p; 


二 
* 优化 : 我 们 知道 如 果 所 有 任务 都 在 公平 类 中 ， 那 么 我 们 就 可 以 直接 调用 那个 函数 
.Fy 


if (likely (rq->nr Frunning == rq->cfs.nr running)) | 
P = fair sched class.pick next task{rq); 
if (likelyt{p)) 
return p; 


} 


class = SChed class highest; 

for ( ; ;) { 
p = Class->pick next task (rq);} 
if (p) 


return p; 
fu 
* 永 不 会 为 NULL， 因 为 idle 类 总 会 返回 非 NULL 的 p 
wd 


Class = Class->Nnext:; 
} 
} 
注意 该 函数 开始 部 分 的 优化 。 因 为 CFS 是 普通 进程 的 调度 类 ， 而 系统 运行 的 绝 大 多 数 进程 
都 是 普通 进程 ， 因 此 这 里 有 一 个 小 技巧 用 来 加 速 选择 下 一 个 CFS 提供 的 进程 ， 前 提 是 所 有 可 运 
行进 程 数量 等 于 CFS 类 对 应 的 可 运行 进程 数 〈( 这 样 就 说 明 所 有 的 可 运行 进程 都 是 CFS 类 的 )。 
该 函数 的 核心 是 for( 循环 ， 它 以 优先 级 为 序 ， 从 最 高 的 优先 级 类 开始 ， 遍 历 了 每 一 个 调度 
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类 。 每 一 个 调度 类 都 实现 了 pick_next_task0 函数 ， 它 会 运 回 指向 下 一 个 可 运行 进程 的 指针 ， 或 . 
者 没有 时 返回 NULL。 我 们 会 从 第 一 个 返回 非 NULL 值 的 类 中 选择 下 一 个 可 运行 进程 。CFS 中 
pick_next_task() 实现 会 调用 pick_next_entity(0， 而 该 函数 会 再 来 调用 我 们 前 面 内 容 中 讨论 过 的 
_pick_next entity(0 函数 。 


4.5.4 ”了 睡眠 和 唤醒 


休 卢 (被 阻塞 〉 的 进程 处 于 一 个 特殊 的 不 可 执行 状态 。 这 点 非常 重要 ， 如 果 没 有 这 种 特殊 状 
态 的 话 ， 调 度 程 序 就 可 能 选 出 一 个 本 不 愿意 被 执行 的 进程 ， 更 精 糕 的 是 ， 休 有 眼 就 必须 以 轮 询 的 方 
式 实 现 了 。 进 程 休 虐 有 多 种 原因 ， 但 肯定 都 是 为 了 等 待 一 些 事 件 。 事 件 可 能 是 一 段 时 间 从 文件 IO 
读 更 多 数据 ， 或 者 是 某 个 硬件 事件 。 一 个 进程 还 有 可 能 在 尝试 获取 一 个 已 被 占用 的 内 核 信 号 量 时 
被 迫 进 入 休眠 (这 部 分 在 第 9 章 中 加 以 讨论 )。 休 卢 的 一 个 常见 原因 就 是 文件 WO 一 一 如 进程 对 一 
个 文件 执行 了 read() 操作 ， 而 这 需要 从 磁盘 里 读 取 。 还 有 ， 进 程 在 获取 键盘 输入 的 时 候 也 需要 等 
等。 无 论 哪 种 情况 ， 内 楼 的 操作 都 相同 : 进程 把 自己 标记 成 休眠 状态 ， 从 可 执行 红 黑 树 中 移出 ， 
放 入 等 待 队 列 ， 然 后 调用 schedule() 选择 和 执行 一 个 其 他 进程 。 唤 醒 的 过 程 刚好 相反 : 进程 被 设 
置 为 可 执行 状态 ， 然 后 再 从 等 待 队 列 中 移 到 可 执行 红 黑 树 中 。 

在 第 3 章 里 曾经 讨论 过 ， 休 卢 有 两 种 相关 的 进程 状态 : TASK_INTERRUPTIBLE 和 TASK_ 
UNINTERRUPTIBLE。 它 们 的 唯一 区 别 是 处 于 TASK_UNINTERRUPTIBLE 的 进程 会 忽略 信号 ， 
而 处 于 TASK _INTERRUPTIBLE 状态 的 进程 如 果 接 收 到 一 个 信号 ， 会 被 提前 唤醒 并 啊 应 该 信号 。 
两 种 状态 的 进程 位 于 同一 个 等 待 队列 上 ， 等 待 某 些 事件 ， 不 能 够 运行 。 

1. 等 竺 队列 

休 卢 通过 等 待 队 列 进行 处 理 。 等 待 队 列 是 由 等 待 某 些 事件 发 生 的 进程 组 成 的 简单 链表 。 内 
核 用 wake_queue_head t 来 代表 等 待 队列 。 等 待 队 列 可 以 通过 DECLARE_ WAITQUEUEO 静态 创 
建 ， 也 可 以 由 init_waitqueue_head() 动态 创建 。 进 程 把 自己 放 人 等 待 队列 中 并 设置 成 不 可 执行 状 
态 。 当 与 等 待 队列 相关 的 事件 发 生 的 时 候 ， 队 列 上 的 进程 会 被 唤醒 。 为 了 避免 产生 竞争 条 件 ， 休 
眠 和 唤醒 的 实现 不 能 有 丝 漏 。 

针对 休眠 ， 以 前 曾经 使 用 过 一 些 简 单 的 接口 。 但 那些 接口 会 带 来 竞争 条 件 : 有 可 能 导致 在 判 
定 条 件 变 为 真 后 ， 进 程 却 开 始 了 休眠 ， 那 样 就 会 使 进程 无 限期 地 休眠 下 去 。 所 以 ， 在 内 核 中 进行 
休眠 的 推荐 操作 就 相对 复杂 了 一 些 ; 

/* 'q， 是 我 们 希望 休眠 的 等 待 队列 */ 


DEFINE WAIT{(wait); 


add wait queue {lg, &wait).; 
while (!condition) { /* 'condition' 是 我 们 在 等 待 的 事件 */ 
Prepare to wait lkdq, &wait, TASK INTERRUPTIBLE).; 
if (signal pending (current))} 
A/* 处 理 信号 */ 
schedule(); 
} 


finish wait (&q, &wait):; 


进程 通过 执行 下 面 几 个 步 又 将 自己 加 入 到 一 个 等 待 队列 中 : 
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1) 调用 宏 DEFINE_WAITO 创建 一 个 等 待 队 列 的 项 。 

2) 调用 add_wait_queue() 把 自己 加 入 到 队列 中 。 该 队列 会 在 进程 等 待 的 条 件 满 足 时 唤醒 它 。 
当然 我 们 必须 在 其 他 地 方 撰写 相关 代码 ， 在 事件 发 生 时 ， 对 等 待 队 列 执 行 wake_up( 操作 。 

3) 调用 prepare to wait0) 方法 将 进程 的 状态 变更 为 TASK INTERRUPTIBLE 或 TASK 
UNINTERRUPTIBLE。 而 且 该 函数 如 果 有 必要 的 话 会 将 进程 加 回 到 等 待 队列 ， 这 是 在 接 下 来 的 
循环 遍历 中 所 需要 的 。 

4) 如 果 状 态 被 设置 为 TASK _ INTERRUPTIBLE， 则 信号 唤醒 进程 。 这 就 是 所 谓 的 伪 唤 醒 
(唤醒 不 是 因为 事件 的 发 生 )， 因 此 检查 并 处 理 信 号。 

5) 当 进 程 被 唤醒 的 时 候 ， 它 会 再 次 检查 条 件 是 否 为 真 。 如 果 是 ， 它 就 退出 循环 ; 如 果 不 
是 ， 它 再 次 调用 schedule() 井 一直 重复 这 步 操作 。 

6) 当 条 件 福 足 后 ， 进 程 将 自己 设置 为 TASK_RUNNING 并 调用 finish_wait( 方法 把 自己 移 
出 等 待 队列 。 

如 果 在 进程 开始 休眠 之 前 条 件 就 已 经 达成 了 ， 那 么 循环 会 退出 ， 进 程 不 会 存在 错误 地 进 人 休 
眠 的 倾 同 。 需 要 注意 的 龙 ， 内 核 代 码 在 信 环 体内 和 荫 芝 需要 完成 一 些 其 他 的 任务 ， 比 如 ， 它 可 能 在 
调用 schedule0 之 前 需要 释放 掉 锁 ， 而 在 这 以 后 再 重新 获取 它们 ， 或 者 啊 应 其 他 事件 。 

国 数 inotify read0, 位 于 文件 fs/notify/inotify/inotify userc 中 ， 负 责 从 通知 文件 描述 符 中 读 
取信 息 ， 它 的 实现 无 疑 是 等 待 队列 的 一 个 典型 用 法 : 


static ssize t inotify readlstruct file *file, char user *buf, 
size t count, loff t *pogs) 
| 
struct fenotify group *group; 
struct fenotify event *kevent:; 
char user *estart; 
int ret; 
DEFINE WAIT {wait)}):; 


atart = buf:; 
group = file->private data,; 


while (1} { 
prepare to wait (ggroup->notification waitgqg, 
&wait, 
TASK INTERRUPTIBLE) ; 


mutex locklggroup->notification muteX) ; 
kevent = get one event (group, count); 
mtex unlock(&group->notification mutex); 


if (kevent) { 
ret = PTR ERR (kevent); 
if (IS ERR (kevent)) 
break:; 
ret = copy event to user (group, kevent, buf); 
fanotify put event (kevent); 
if (ret < 0) 
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break; 
buf += ret} 
Count -= ret; 
continue; 


} 


ret = -EAGAIN:; 

if (file->f flags & O NONBLOCK) 
break:; 

ret = =EINTR:; 

if (signal pending {current)) 
break:; 


if {start !=s buf)} 
break; 


schedule{}:; 


} 


finish wait (ggroup->notification waitq, &wait); 


if (start 1= buf g&& ret l= -EFAULT) 
ret = buf - start:; 
return ret:; 


} 


这 个 函数 遵循 了 我 们 例子 中 的 使 用 模式 ， 主 要 的 区 别 是 它 在 while 循环 中 检查 了 状态 ， 而 不 
是 在 while 循环 条 件 语 句 中 。 原 因 是 该 条 件 的 检测 更 复杂 些 ， 而 且 需 要 获得 锁 。 也 正 因为 如 此 ， 
循环 退出 是 通过 break 完成 的 。 

2. 唤醒 

唤醒 操作 通过 函数 wake_up0 进行 ， 它 会 唤醒 指定 的 等 待 队 列 上 的 所 有 进程 。 它 调用 函 
数 try_ to_wake up(0， 该 国 数 负责 将 进程 设置 为 TASK_ RUNNING 状态 ， 调 用 enqueue_task( 将 
此 进程 放 人 红 黑 树 中 ， 如 果 被 唤醒 的 进程 优先 级 比 当 前 正在 执行 的 进程 的 优先 级 高 ， 还 要 设置 
need_resched 标志 。 通 常 哪 段 代码 促使 等 待 条 件 达 成 ， 它 就 要 负责 随后 调用 wake_up0 函数 。 举 
例 来 说 , 当 磁 盘 数 据 到 来 时 ，VFS 就 要 负责 对 等 待 队 列 调用 wake_up0， 以 便 唤 醒 队 列 中 等 待 这 
些 数 据 的 进程 。 

关于 休眠 有 一 点 需要 注意 ， 存 在 虚假 的 唤醒 。 有 时 候 进程 被 唤醒 并 不 是 因为 它 所 等 待 的 条 件 
达成 了 才 需 要 用 一 个 循环 处 理 来 保证 它 等 待 的 条 件 真 正 达成 。 图 4-1 描述 了 每 个 调度 程序 状态 之 
间 的 关系 。 


4.6 ”抢占 和 上 下 文 切换 


上 下 文 切 换 ， 也 就 是 从 一 个 可 执行 进程 切换 到 另 一 个 可 执行 进程 ， 由 定义 在 kemel/ sched.c 中 
的 context_switch0 函数 负责 处 理 。 每 当 一 个 新 的 进程 被 选 出 来 准备 投入 运行 的 时 候 ，schedule0 
就 会 调用 该 函数 。 它 完成 了 两 项 基本 的 工作 : 

* 调 用 声明 在 <asm/mmu_context.h> 中 的 switch_mm()， 读 函数 负责 把 虚拟 内 存 从 上 一 个 进 
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程 映射 切换 到 新 进程 中 。 
* 调用 声明 在 <asm/system.h> 中 的 switch_ to0， 该 函数 负责 从 上 一 个 进程 的 处 理 器 状态 切换 
到 新 进程 的 处 理 器 状态 。 这 包括 保存 、 恢 复 栈 信息 和 寄存 器 信息 ， 还 有 其 他 任何 与 体系 结 
构 相 关 的 状态 信息 ， 都 必须 以 每 个 进程 为 对 象 进行 管理 和 保存 。 

_a_wait_queue) 把 任务 加 到 等 竺 队列 中 ， 把 任务 


的 状态 置 为 TASK_INTERRUPTIBLE， 然 后 调用 schedulel), 一 
schedule() 嘻 | Hdeactivate_task 0 从 运 行 队列 中 删 队 尾 务 


(任务 是 不 可 运行 的 ) 
【任务 是 可 运行 的 ) yw 


接收 信号 
| ”TASK_RUNNING | < 任务 的 状态 被 设置 为 TASK_RUNNING，| 
然后 任务 执行 信号 处 理 程序 





A 


任务 等 待 事件 发 生 ， 然 后 my_io_wake_up0 反 任务 置 为 TASK_RUNNING， 
调用 activate_task0) 把 任 竹 加 到 运行 队列 ， 之 后 调用 schedule(),- 
_remove_wait_queue 人 Nj) 把 任务 从 等 待 队 列 中 删除 


图 4-1 休眠 和 唤醒 


内 核 必 须知 道 在 什么 时 候 调用 schedule()。 如 果 仅 靠 用 户 程序 代码 显 式 地 调用 schedule()， 它 
们 可 能 就 会 永远 地 执行 下 去 。 相 反 ， 内 核 提供 了 一 个 need_resched 标志 来 表明 是 否 需 要 重新 执行 
一 次 调度 〈 见 表 4-1)。 当 某 个 进程 应 该 被 抢占 时 ，scheduler tick0 就 会 设置 这 个 标志 : 当 一 个 优 
先 级 高 的 进程 进入 可 执行 状态 的 时 候 ，try_to_wake_up() 也 会 设置 这 个 标志 ， 内 核 检查 该 标志 ， 
确认 其 被 设置 ， 调 用 schedule0 来 切换 到 一 个 新 的 进程 。 该 标志 对 于 内 核 来 讲 是 一 个 信息 ， 它 表 
示 有 其 他 进程 应 当 被 运行 了 ， 要 尽快 调用 调度 程序 。 


表 4-1 用 于 访问 和 操作 need_resched 的 函数 


时 数 目 的 
set tsk need resched() 设置 指定 进程 中 的 need_resched 标志 
clear tsk need resched() ”清除 指定 进程 中 的 need_resched 标志 
need reschedO 检查 need_resched 标志 的 值 ， 如 果 被 设置 就 返回 真 ， 否 则 返回 候 


再 返回 用 户 空间 以 及 从 中 断 返 回 的 时 候 ， 内 核 也 会 检查 need_resched 标志 。 如 果 已 被 设置 ， 
内 核 会 在 继续 执行 之 前 调用 调度 程序 。 

每 个 进程 都 包含 一 个 need_resched 标志 ， 这 是 因为 访问 进程 描述 符 内 的 数值 要 比 访问 一 个 
全 局 变量 快 (因为 current 宏 速 度 很 快 并 且 描 述 符 通常 都 在 高 速 缓 存 中 )。 在 2.2 以 前 的 内 核 版 本 
中 ， 该 标志 曾经 是 一 个 全 局 变量 。2.2 到 2.4 版 内 核 中 它 在 task_struct 中 。 而 在 2.6 版 中 ， 它 被 移 
到 thread info 结构 体 里 ， 用 一 个 特别 的 标志 变量 中 的 一 位 来 表示 。 
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4.6.1 用 户 抢占 


内 核 即将 返回 用 户 空 间 的 上 时候， 如果 need_resched 标志 被 设置 ， 会 导致 schedule() 被 调用 ， 
此 时 就 会 发 生 用 户 抢 占 。 在 内 核 返 回 用 户 空间 的 时 候 ， 它 知道 自己 是 安全 的 ， 因 为 既然 它 可 以 继 
续 去 执行 当前 进程 ， 那 么 它 当 然 可 以 再 去 选择 一 个 新 的 进程 去 执行 。 所 以 ， 内 核 无 论 是 在 中 断 处 
理 程序 还 是 在 系统 调用 后 返回 ， 都 会 检查 need_resched 标志 。 如 果 它 被 设置 了 了， 那么， 内核 会 先 
择 一 个 其 他 (更 合适 的 ) 进程 投入 运行 。 从 中 断 处 理 程序 或 系统 调用 返回 的 返回 路 径 都 是 跟 体系 
结构 相关 的 ， 在 entry.S《〈 此 文件 不 仅 包 含 内 核 人 口 部 分 的 程序 ， 内 核 退 出 部 分 的 相关 代码 也 在 其 
中 ) 文件 中 通过 汇编 语言 来 实现 。 

简 而 言 之 ， 用 户 抢 占 在 以 下 情况 时 产生 : 

* 从 系统 调 返 回 用 户 空 间 时 。 

* 从 中 断 处 理 程序 返回 用 户 空间 时 。 


4.6.2 内核 抢 占 


与 其 他 大 部 分 的 Unix 变 体 和 其 他 大 部 分 的 操作 系统 不 同 ，Linux 完整 地 支持 内 核 抢 占 。 在 
不 支持 内 核 抢 占 的 内 核 中 ， 内 核 代码 可 以 一 直 执 行 ， 到 它 完 成 为 止 。 也 就 是 说 ， 调 度 程序 没有 
办 法 在 一 个 内 核 级 的 任务 正在 执行 的 时 候 重新 调度 一 一 内 核 中 的 各 任务 是 以 协作 方式 调度 的 ， 不 
具备 抢占 性 。 内 术 代 码 一 直 要 执行 到 完成 (返回 用 户 空间 ) 或 明显 的 阻塞 为 止 。 在 2.6 版 的 内 核 
中 ， 内 核 引 入 了 抢占 内 力 ; 现在 ， 只 要 重新 调度 是 安全 的 ， 内 核 就 可 以 在 任何 时 间 抢 占 正在 执行 
的 任务 。 

那么 ， 什 么 时 候 重新 调度 才 是 安全 的 呢 ? 只 要 没有 持 有 锁 ， 内 核 就 可 以 进行 抢占 。 锁 是 非 抢 
占 区 域 的 标志 。 由 于 内 核 是 支持 SMP 的 ， 所 以 ， 如 果 没 有 持 有 锁 ， 正 在 执行 的 代码 就 是 可 重新 
导入 的 ， 也 就 是 可 以 抢占 的 。 

为 了 支持 内 核 抢 占 所 做 的 第 一 处 变动 ， 就 是 为 每 个 进程 的 thread_info 引入 preempt_count 计 
数 器 。 该 计数 器 初始 值 为 0， 每 当 使 用 锁 的 时 候 数 值 加 1， 释 放 锁 的 时 候 数 值 减 1。 当 数值 为 0 
的 时 候 ， 内 核 就 可 执行 抢占 。 从 中 断 返 回 内核 空 间 的 时 候 ， 内 核 会 检查 need_resched 和 preempt_ 
count 的 值 。 如 果 need_resched 被 设置 ， 并 且 preempt_count 为 0 的 话 ， 这 说 明 有 一 个 更 为 重要 的 
任务 需要 执行 并 且 可 以 安全 地 抢占 ， 此 时 ， 调 度 程序 就 会 被 调用 。 如 果 preempt_count 不 为 0， 
说 明 当前 任务 持 有 锁 ， 所 以 抢占 是 不 安全 的 。 这 时 ， 内 棱 就 会 像 通常 那样 直接 从 中 断 返 回 当前 执 
行进 程 。 如 果 当 前 进程 持 有 的 所 有 的 锁 都 被 释放 了 ，preempt_count 就 会 重新 为 0。 此 了 时， 释放 锁 
的 代码 会 检查 need_resched 是 否 被 设置 。 如 果 是 的 话 ， 就 会 调用 调度 程序 。 有 些 内 核 代 码 需 要 多 
许 或 禁止 内 核 抢占 ， 相 关内 容 会 在 第 9 章 讨论 。 

如 果 内 核 中 的 进程 被 阻塞 了 ， 或 它 显 式 地 调用 了 schedule0， 内 核 抢 占 也 会 显 式 地 发 生 。 这 
种 形式 的 内 核 抢 占 从 来 都 是 受 支持 的 ， 因 为 根本 无 须 额外 的 逻辑 来 保证 内 核 可 以 安全 地 被 抢占 。 
如 果 代 码 显 式 地 调用 了 schedule()， 那 么 它 应 该 清楚 自己 是 可 以 安全 地 被 抢占 的 。 

内 核 抢占 会 发 生 在 : 

* 中 断 处 理 程序 正在 执行 ， 且 返回 内 核 空间 之 前 。 
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* 内 核 代 码 再 一 次 具有 可 抢占 性 的 时 修 。 
* 如 果 内 核 中 的 任务 显 式 地 调用 schedule()。 
* 如 果 内 核 中 的 任务 阻塞 (这 同样 也 会 导致 调用 schedule())。 


4.7 “实时 调度 策略 


Linux 提供 了 两 种 实时 调度 策略 : SCHED FIFO 和 SCHED RR。 而 普通 的 、 非 实时 的 调 座 
策略 是 SCHED_NORMAL。 借助 调度 类 的 框架 ， 这 些 实 时 策略 并 不 被 完全 公平 调度 器 来 管理 ， 
而 是 被 一 个 特殊 的 实时 调度 器 管理 。 具 体 的 实现 定义 在 文件 kermel/sched rt.c. 中 ， 在 接 下 来 的 内 
容 中 我 们 将 讨论 实时 调度 策略 和 算法 。 

SCHED_FIFO 实现 了 一 种 简单 的 、 先 入 先 出 的 调度 算法 : 它 不 使 用 时 间 片 。 处 于 可 运行 
状态 的 SCHED FIFO 级 的 进程 会 比 任何 SCHED NORMAL 级 的 进程 都 先 得 到 调度 。 一 旦 一 个 
SCHED_FIFO 级 进程 处 于 可 执行 状态 ， 就 会 一 直 执 行 ， 直 到 它 自 己 受 阻塞 或 显 式 地 释放 处 理 器 
为 止 ; 它 不 基于 时 间 片 ， 可 以 一 直 执 行 下 去 。 只 有 更 高 优先 级 的 SCHED_FIFO 或 者 SCHED_RR 
任务 才能 抢占 SCHED_FIFO 任务 。 如 果 有 两 个 或 者 更 多 的 同 优先 级 的 SCHED FIFO 级 进程 ， 它 
们 会 轮流 执行 , 但 是 依然 只 有 在 它们 愿意 让 出 处 理 器 时 才 会 退出 。 只 要 有 SCHED FIFO 级 进程 
在 执行 ， 其 他 级 别 较 低 的 进程 就 只 能 等 待 它 变 为 不 可 运行 态 后 才 有 机 会 执行 。 

SCHED_RR 与 SCHED FIFO 大 体 相 同 ， 只 是 SCHED RR 级 的 进程 在 耗 尽 事先 分 配给 它 的 
时 间 后 就 不 能 再 继续 执行 了 。 也 就 是 说 ，SCHED_RR 是 带 有 时 间 片 的 SCHED_FIFo 一 一 这 是 一 
种 实时 轮流 调度 算法 。 当 SCHED_RR 任务 耗 尽 它 的 时 间 片 时 ， 在 同一 优先 级 的 其 他 实时 进程 被 
轮流 调度 。 时 间 片 只 用 来 重新 调度 同一 优先 级 的 进程 。 对 于 SCHED_FIFO 进程 ， 高 优先 级 总 是 
立即 抢占 低 优先 级 ， 但 低 优先 级 进程 决 不 能 抢占 SCHED_RR 任务 ， 即 使 它 的 时 间 片 耗 尽 。 

这 两 种 实时 算法 实现 的 都 是 静态 优先 级 。 内 核 不 为 实时 进程 计算 动态 优先 级 。 这 能 保证 给 定 
优先 级 别 的 实时 进程 总 能 抢占 优先 级 比 它 低 的 进程 。 

Linux 的 实时 调度 算法 提供 了 一 种 软 实时 工作 方式 。 软 实时 的 含义 是 ， 内 核 调 度 进 程 ， 尽 力 
使 进程 在 它 的 限定 时间 到 来 前 运行 ， 但 内 核 不 保证 总 能 注 足 这 些 进程 的 要 求 。 相 反 ， 硬 实时 系统 
保证 在 一 定 条件 下 ， 可 以 满足 任何 调 府 的 要 求 。Linux 对 于 实时 任务 的 调度 不 做 任何 保证 。 虽 然 
不 能 保证 硬 实时 工作 方式 ， 但 Linux 的 实时 调度 算 法 的 性 能 还 是 很 不 错 的 。2.6 版 的 内 核 可 以 福 
足 严 格 的 时 间 要 求 。 

实时 优先 级 范围 从 0 到 MAX _RT PRIO 减 1。 默 认 情 况 下 ，MAX RT PRIO 为 100 一 一 所 以 
默认 的 实时 优先 级 范围 是 从 0 到 99。SCHED NORMAL 级 进程 的 mice 值 共 享 了 这 个 取 值 空间 ; 
它 的 取 值 范围 是 从 MAX RT PRIO 到 (MAX RT PRIO + 40)。 也 就 是 说 ， 在 默认 情况 下 ，nice 
值 从 一 20 到 +19 直接 对 应 的 是 从 100 到 139 的 实时 优先 级 范围 。 


4.8 与 调度 相关 的 系统 调用 


Linux 提供 了 一 个 系统 调用 族 ， 用 于 管理 与 调度 程序 相关 的 参数 。 这 些 系统 调用 可 以 用 来 
操作 和 处 理 进程 优先 级 、 调 度 策 略 及 处 理 器 绑 定 ， 同 时 还 提供 了 显 式 地 将 处 理 尼 交 给 其 他 进程 
的 机 制 。 
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许多 书籍 (还 有 友善 的 man 帮助 文件 ) 都 提供 了 这 些 系统 调用 它们 都 包含 在 C 库 中 ， 没 
用 什么 太 多 的 封装 ， 基 本 上 只 调用 了 系统 调用 而 已 ) 的 说 明 。 表 4-2 列举 了 这 些 系统 调用 并 给 出 
了 简短 的 说 明 。 第 5 半 会 讨论 它们 是 如 何 实现 的 。 


表 4-2 与 调度 相关 的 系统 调用 


系统 调用 描 述 
nice() 设置 进程 的 nice 值 
sched setscheduler() : 设置 进程 的 调度 策略 
sched getscheduler() 获取 进程 的 调 府 策略 
sched setparam() 设置 进程 的 实时 优先 级 
sched getparam () 获取 进程 的 实时 优先 级 
sched get priority max 人 获取 实时 优先 级 的 最 大 值 
sched get priority min () 获取 实时 优先 级 的 最 小 值 
sched rr get interval() 获取 进程 的 时 间 片 值 
sched setaffinity() 设置 进程 的 处 理 器 的 亲和力 
sched petaffinity () 获取 进程 的 处 理 器 的 亲和力 
sched yield 暂时 让 出 处 理 器 


4.8.1 与 调度 策略 和 优先 级 相关 的 系统 调用 


sched setscheduler() 和 sched getscheduler() 分 别 用 于 设置 和 获取 进程 的 调度 策略 和 实时 优先 
级 。 与 其 他 的 系统 调用 相似 ， 它 们 的 实现 也 是 由 许多 参数 检查 、 初 始 化 和 清理 构成 的 。 其 实 最 重 
要 的 工作 在 于 读 取 或 改写 进程 tast_struct 的 policy 和 rt_priority 的 值 。 

sched_setparam() 和 sched_getparam() 分 别 用 于 设置 和 获取 进程 的 实时 优先 级 。 这 两 个 系统 
调用 获取 封装 在 sched param 特殊 结构 体 的 it priority 中 。sched get priority max (0 和 sched 
get_priority_min() 分 别 用 于 返回 给 定 调度 策略 的 最 大 和 最 小 优先 级 。 实 时 调度 策略 的 最 大 优先 级 
是 MAX USER RT PRIO 减 1， 最 小 优先 级 等 于 1。 

对 于 一 个 普通 的 进程 ，nice() 函数 可 以 将 给 定 进程 的 静态 优先 级 增加 一 个 给 定 的 量 。 只 有 超 
级 用 户 才 能 在 调用 它 时 使 用 负 值 ， 从 而 提高 进程 的 优先 级 。nice() 国 数 会 调用 内 核 的 set_ user_ 
nice( 国 数 ， 这 个 国 数 会 设置 进程 的 task struct 的 static_prio 和 prio 值 。 


4.8.2 与 处 理 器 绑 定 有 关 的 系统 调用 


Linux 调度 程序 提供 强制 的 处 理 器 绑 定 〈processor affinity) 机 制 。 也 就 是 说 ， 虽 然 它 尽力 通 
过 一 种 软 的 (或 者 说 自然 的 ) 亲 和 性 试图 使 进程 尽量 在 同一 个 处 理 器 上 运行 ， 但 它 也 允许 用 户 
强制 指定 “这 个 进程 无 论 如 何 都 必须 在 这 些 处 理 器 上 运行 "”。 这 种 强制 的 亲 和 性 保存 在 进程 task_ 
struct 的 cpus_allowed 这 个 位 掩 码 标 志 中 。 该 掩 码 标 志 的 每 一 位 对 应 一 个 系统 可 用 的 处 理 器 。 上 默 
认 情 况 下 ， 所 有 的 位 都 被 设置 ， 进 程 可 以 在 系统 中 所 有 可 用 的 处 理 器 上 执行 。 用 户 可 以 通过 
sched_ setaffinity() 设置 不 同 的 一 个 或 几 个 位 组 合 的 位 掩 码 ， 而 调用 sched_ getaffinity( 则 返回 当 
前 的 cpus_allowed 位 掩 码 。 
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内 核 提 供 的 强制 处 理 器 绪 定 的 方法 很 简单 。 首 先 ， 当 处 理 进 行 第 一 次 创建 时 ， 它 继承 了 其 父 
进程 的 相关 掩 码 。 由 于 父 进程 运行 在 指定 处 理 器 上 ， 子 进程 也 运行 在 相应 处 理 器 上 。 其 次 ， 当 处 
理 器 绑 定 关系 改变 时 ， 内 核 会 采用 “移植 线程 ”把 任务 推 到 合法 的 处 理 器 上 。 最 后 ， 加 载 平衡 器 
只 把 任务 拉 到 人 允许 的 处 理 器 上 ， 因 此 ， 进 程 只 运行 在 指定 处 理 器 上 ， 对 处 理 器 的 指定 是 由 该 进程 
描述 符 的 cpus_allowed 域 设 置 的 。 


4.8.3 ”放弃 处 理 器 时 间 


Linux 通过 sched_yield() 系统 调用 ， 提 供 了 一 种 让 进程 显 式 地 将 处 理 器 时 间 让 给 其 他 等 待 执 
行进 程 的 机 制 。 它 是 通过 将 进程 从 活动 队列 中 《因为 进程 正在 执行 ， 所 以 它 肯 定位 于 此 队列 当 
中 ) 移 到 过 期 队列 中 实现 的 。 由 此 产生 的 效果 不 仅 抢占 了 该 进程 并 将 其 放 和 优先 级 队列 的 最 后 
面 ， 还 将 其 放 入 过 期 队列 中 一 一 这 样 能 确保 在 一 段 时 间 内 它 都 不 会 再 被 执行 了 。 由 于 实时 进程 
不 会 过 期 ， 所 以 属于 例外 。 它 们 只 被 移动 到 其 优先 级 队列 的 最 后 面 〈 不 会 放 到 过 期 队列 中 )。 在 
Linux 的 早期 版 本 中 ，sched_yield0 的 语义 有 所 不 同 ， 进 程 只 会 被 放置 到 优先 级 队列 的 末尾 ， 放 
弃 的 时 间 往 往 不 会 太 长 。 现 在 ， 应 用 程序 其 至 内 核 代码 在 调用 sched_yield() 前 ， 应 该 仔细 考虑 是 
否 真 的 希望 放弃 处 理 器 时 间 。 

内 核 代 码 为 了 方便 ， 可 以 直接 调用 yield0， 先 要 确定 给 定 进 程 确实 处 于 可 执行 状态 ， 然 后 再 
调用 sched_yield0。 用 户 空 间 的 应 用 程序 直接 使 用 sched_yield0 系统 调用 就 可 以 了 。 


4.9 小 结 


进程 调度 程序 是 内 核 重 要 的 组 成 部 分 ， 因 为 运行 着 的 进程 首先 在 使 用 计算 机 (至少 在 我 们 大 
多 数 人 看 来 )。 然 而 ， 满 足 进程 调度 的 各 种 需要 绝 不 是 轻而易举 的 : 很 难 找到 “一 刀 切 ”的 算法 ， 
既 适 合 众 多 的 可 运行 进程 ， 又 具有 可 伸缩 性 ， 还 能 在 调度 周期 和 吞吐 量 之 间 求 得 平衡 ， 同 时 还 注 
足 各 种 负载 的 需求 。 不 过 ，Linux 内 核 的 新 CFS 调度 程序 尽量 满足 了 各 个 方面 的 需求 ， 并 以 较 完 
善 的 可 伸缩 性 和 新 颖 的 方法 提供 了 最 佳 的 解决 方案 。 

前 面 的 章节 覆盖 了 进程 管理 的 相关 内 容 ， 本 章 则 考察 了 进程 调度 所 遵循 的 基本 原理 、 具 体 
实现 、 调 度 算 法 以 及 目前 Linux 内 核 所 使 用 的 接口 。 第 5 章 将 涵盖 内 核 提供 给 运行 进程 的 主要 接 
口 一 一 系统 调用 。 


第 回 章 
系统 调用 


在 现代 操作 系统 中 ， 内 核 提供 了 用 户 进 程 与 内 核 进行 交互 的 一 组 接口 。 这 些 接 口 让 应 用 程序 
受 限 地 访问 硬件 设备 ， 提 供 了 创建 新 进程 并 与 已 有 进程 进行 通信 的 机 制 ， 也 提供 了 申请 操作 系统 
其 他 资源 的 能 力 。 这 些 接 口 在 应 用 程序 和 内 核 之 间 扮 演 了 使 者 的 角色 ， 应 用 程序 发 出 各 种 请 求 ， 
而 内 核 负 责 福 足 这 些 请 求 或 者 无 法 满足 时 返回 一 个 错误 )。 实 际 上 提供 这 些 接口 主要 是 为 了 保 
证 系统 稳定 可 靠 ， 避 免 应 用 程序 盗 意 亡 行 。 


5.1 与 内 核 通信 


系统 调用 在 用 户 空间 进程 和 硬件 设备 之 间 添 加 了 一 个 中 间 层 。 该 层 主 要 作用 有 三 个 。 首 先 ， 
它 为 用 户 空间 提供 了 一 种 硬件 的 抽象 接口 。 举 例 来 说 ， 当 需要 读 写 文件 的 时 候 ， 应 用 程序 就 可 以 
不 去 管 磁盘 类 型 和 介质 ， 甚 至 不 用 去 管 文件 所 在 的 文件 系统 到 底 是 哪 种 类 型 。 第 二 ， 系 统 调用 保 
证 了 系统 的 稳定 和 安全 。 作 为 硬件 设备 和 应 用 程序 之 间 的 中 间 人 ， 内 核 可 以 基于 权限 、 用 户 类 型 
和 其 他 一 些 规则 对 需要 进行 的 访问 进行 裁决 。 举 例 来 说 ， 这 样 可 以 避免 应 用 程序 不 正确 地 使 用 硬 
件 设备 ， 窗 取 其 他 进程 的 资源 ， 或 做 出 其 他 危害 系统 的 事情 。 第 三 ， 在 第 3 章 中 曾经 提 到 过 ， 每 
个 进程 都 运行 在 虚拟 系统 中 ， 而 在 用 户 空间 和 系统 的 其 余部 分 提供 这 样 一 层 公共 接口 ， 也 是 出 于 
这 种 考虑 。 如 果 应 用 程序 可 以 随意 访问 硬件 而 内 核 又 对 此 一 无 所 知 的 话 ， 几 乎 就 没 法 实现 多 任务 
和 虚拟 内 存 ， 当 然 也 不 可 能 实现 良好 的 稳定 性 和 安全 性 。 在 Linux 中 ， 系 统 调用 是 用 户 空间 访问 
内 核 的 唯一 手段 ; 除 异 常 和 陷 人 外 ， 它 们 是 内 核 唯一 的 合法 入口。 实际 上 ， 其 他 的 像 设备 文件 和 
/proc 之 类 的 方式 ， 最 终 也 还 是 要 通过 系统 调用 进行 访问 的 。 而 有 趣 的 是 ，Linux 提供 的 系统 调用 
却 比 大 部 分 操作 系统 都 少 得 多 9S。 本 章 重点 强调 Linux 系统 调用 的 规则 和 实现 方法 。 


5.2 API、POSIX 和 C 库 


一 般 情况 下 ， 应 用 程序 通过 在 用 户 空 间 实 现 的 应 用 编程 接口 (APD 而 不 是 直接 通过 系统 调用 
来 编程 。 这 点 很 重要 ， 因 为 应 用 程序 使 用 的 这 种 编程 接口 实际 上 并 不 需要 和 内 核 提 供 的 系统 调用 
对 应 。 一 个 API 定义 了 一 组 应 用 程序 使 用 的 编程 接口 。 它 们 可 以 实现 成 一 个 系统 调用 ， 也 可 以 
通过 调用 多 个 系统 调用 来 实现 ， 而 完全 不 使 用 任何 系统 调用 也 不 存在 问题 。 实 际 上 ，API 可 以 在 
各 种 不 同 的 操作 系统 上 实现 ， 给 应 用 程序 提供 完全 相同 的 接口 ， 而 它们 本 身 在 这 些 系 统 上 的 实现 
却 可 能 过 异 。 图 5-1 给 出 POSIX、API、C 库 以 及 系统 调用 之 间 的 关系 。 


日 、x86 系统 上 大 概 有 250 个 系统 调用 每 种 体系 结构 都 会 定义 一 些 独 特 的 系统 调用 )。 尽 管 有 些 系 统 还 没有 完全 
公布 所 有 的 系统 调用 ， 但 据 估 计 某 些 操作 系统 的 系统 调用 数 有 上 千 个 ， 
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C 库 中 的 print0 ”入 C 库 中 的 write0 


应 用 程序 -一 一 一 一 -一 一 一 一 一 一 一 务 位 库 -一 一 一 一 一 一 一 和 内 核 
图 5-1 调用 printf0 函数 时 ， 应 用 程序 、C 库 和 内 核 之 间 的 关系 


在 Unix 世界 中 ， 最 流行 的 应 用 编程 接口 是 基于 POSIX 标准 的 。 从 纯 技 术 的 角度 看 ，POSIX 
是 由 IEEE 9 的 一 组 标准 组 成 ， 其 目标 是 提供 一 套 大 体 上 基于 Unix 的 可 移植 操作 系统 标准 。 在 应 
用 场合 ，Linux 尽力 与 POSIX 和 SUSv3 兼容 。 

POSIX 是 说 明 API 和 系统 调用 之 间 关 系 的 一 个 极 好 例子 。 在 大 多 数 Unix 系统 上 ， 根 据 
POSIX 定义 的 API 函数 和 系统 调用 之 间 有 着 直接 关系 。 实 际 上 ，POSIX 标准 就 是 仿照 早期 Unix 
系统 的 接口 建立 的 。 另 一 方面 ， 许 多 操作 系统 ， 像 微软 的 Windows， 尽 管 是 非 Unix 系统 ， 也 提 
供 了 与 POSIX 兼容 的 库 。 

Linux 的 系统 调用 像 大 多 数 Unix 系统 一 样 ， 作 为 C 库 的 一 部 分 提供 。C 库 实现 了 Unix 系统 
的 主要 API， 包 括 标准 C 库 函 数 和 系统 调用 接口 。 所 有 的 C 程序 都 可 以 使 用 C 库 ， 而 由 于 C 语 
言 本 身 的 特点 ， 其 他 语言 也 可 以 很 方便 地 把 它们 封装 起 来 使 用 。 此 外 ，C 库 提供 了 POSIX 的 绝 
大 部 分 API。 

从 程序 员 的 角度 看 ， 系 统 调用 无 关 紧 要 ， 他 们 只 需要 跟 API 打交道 就 可 以 了 。 相 反 ， 内 核 
只 跟 系统 调用 打交道 ; 库 函 数 及 应 用 程序 是 怎么 使 用 系统 调用 ， 不 是 内 核 所 关心 的 。 但 是 ， 内 核 
必须 时 刻 牢 记 系 统 调用 所 有 鹤 在 的 用 途 ， 并 保证 它们 有 良好 的 通用 性 和 灵活 性 。 

关于 Unix 的 接口 设计 有 一 名 格言 “提供 机 制 而 不 是 策略 ”。 换 和 名 话说 ，Unix 的 系统 调用 抽 
象 出 了 用 于 完成 某 种 确定 的 目的 的 函数 。 至 于 这 些 函 数 怎么 用 完全 不 需要 内 核 去 关心 9。 


5.3 ”系统 调用 


要 访问 系统 调用 (在 Linux 中 常 称 作 syscall)， 通 常 通过 C 库 中 定义 的 函数 调用 来 进行 。 它 
们 通常 都 需要 定义 零 个 、 一 个 或 几 个 参数 (输入 ) 而 且 可 能 产生 一 些 副 作用 号 ， 例 如 ， 写 某 个 
文件 或 向 给 定 的 指针 拷贝 数据 等 。 系 统 调用 还 会 通过 一 个 long 类 型 轧 的 返回 值 来 表示 成 功 或 者 
错误 。 通 常 ， 但 也 不 绝对 ， 用 一 个 负 的 返回 值 来 表明 错误 。 返 回 一 个 0 值 通 常 (当然 仍 不 是 绝 
对 的 ) 表明 成 功 。 系 统 调用 在 出 现 错误 的 时 候 C 库 会 把 错误 码 写 人 ermo 全 局 变量 。 通 过 调用 
perror() 库 函 数 ， 可 以 把 该 变量 翻译 成 用 户 可 以 理解 的 错误 字符 申 。 

当然 ， 系 统 调用 最 终 具有 一 种 明确 的 操作 。 例 如 getpid0 系统 调用 ， 根 据 定义 它 会 返回 当前 





日 1EEE (eye-triple-E) 是 电气 和 电子 工程 师 协 会 。 这 是 一 个 非 伍 利 组 织 ， 它 涉及 的 技术 领域 非常 广泛 ， 并 且 对 
许多 重要 标 淮 负责 。 欲 了 解 更 多 信息 ， 请 访问 http://www.ieee.org。 

全 ”区 别 对 待机 制 (mechanism) 和 策略 〈policy) 蚌 Unix 设计 中 的 一 大 亮点 。 大 部 分 的 编程 问题 都 可 以 被 切割 成 
两 个 部 分 :“ 需 要 提供 什么 功能 ”( 机 制 ) 和 “怎样 实现 这 些 功能 ”( 策 赂 )。 如 果 由 程序 中 的 独立 部 分 分 别 负 
责 机 制 和 策略 的 实现 ， 那 么 开发 软件 就 更 容易 ， 也 更 容易 适应 不 同 的 需求 。 一 一 译 者 注 

和 注意 这 里 用 的 是 可 能 。 尽 管 绝 大 部 分 调用 都 会 产生 某 种 副作用 《就 是 说 ， 它 们 会 使 系统 的 状态 发 生 某 种 变 
化 )， 但 还 是 有 一 些 系 统 调 用 ， 如 getpid0， 仅 仅 返 回 一 些 内 核 数据 ， 

加 使 用 long 类 型 是 为 了 与 64 位 的 硬件 体系 结构 保持 兼容 。 
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进程 的 PID。 内 核 中 它 的 实现 非常 简单 : 


SYSCALL DEFINEO (getpid) 


| 
} 


注意 ， 定 义 中 并 没有 规定 它 要 如 何 实现 。 内 核 必须 提供 系统 调用 所 希望 完成 的 功能 ， 但 它 
完全 可 以 按照 自己 预期 的 方式 去 实现 ， 只 要 最 后 的 结果 正确 就 行 了 。 当 然 ， 上 面 的 系统 调用 太 简 
单 ， 也 没有 什么 更 多 的 实现 手段 9。 

SYSCALL_DEFINE0 只 是 一 个 宏 ， 它 定义 一 个 无 参数 的 系统 调用 (因此 这 里 为 数字 0)， 展 
开 后 的 代码 如 下 : 


asmlinkage long sys getpidlvoid) 


我 们 看 一 下 如 何 定义 系统 调用 。 首 先 ， 注 意 函 数 声 明 中 的 asmlinkage 限定 词 ， 这 是 一 个 编 
译 指 令 ， 通 知 编译 器 仅 从 本 中 提取 该 国 数 的 参数 。 所 有 的 系统 调用 都 需要 这 个 限定 词 。 其 次 ， 国 
数 返回 long。 为 了 保证 32 位 和 64 位 系统 的 兼容 ， 系 统 调用 在 用 户 空间 和 内 核 空间 有 不 同 的 返回 
值 类 型 ， 在 用 户 空间 为 nt， 在 内 核 空间 为 long。 最 后 ， 注 意 系 统 调用 get_pid() 在 内 核 中 被 定义 
成 sys_ getpid0。 这 是 Linux 中 所 有 系统 调用 都 应 该 遵守 的 命名 规则 ， 系 统 调用 bar0 在 内 核 中 也 
实现 为 sys_bar() 国 数 。 


5.3.1 系统 调用 号 


在 Linux 中 ， 每 个 系统 调用 被 赋予 一 个 系统 调用 号 。 这 样 ， 通 过 这 个 独一无二 的 号 就 可 以 关 
联系 统 调 用 。 当 用 户 空 间 的 进程 执行 一 个 系统 凋 用 的 时 候 ， 这 个 系统 调用 号 就 用 来 指明 到 底 是 要 
执行 哪个 系统 调用 ; 进程 不 会 提 及 系统 调用 的 名 称 。 

系统 调用 号 相当 重要 ， 一 旦 分 配 就 不 能 再 有 任何 变更 ， 否 则 编译 好 的 应 用 程序 就 会 崩溃 。 此 
外 ， 如 采 一 个 系统 调用 被 删除 ， 它 所 占用 的 系统 调用 号 也 不 允许 被 回收 利用 ， 否 则 ， 以 前 编译 过 
的 代码 会 调用 这 个 系统 调用 ， 但 事实 上 却 调 用 的 是 另 一 个 系统 调用 。Linux 有 一 个 “未 实现 ” 系 
统 调用 sys_ni_syscall0， 它 除了 返回 -ENOSYS 外 不 做 任何 其 他 工作 ， 这 个 错误 号 就 是 专门 针对 
无 效 的 系统 调用 而 设 的 。 虽 然 很 军 见 ， 但 如 果 一 个 系统 调用 被 删除 ， 或 者 变 得 不 可 用 ， 这 个 函数 
就 要 负责 “填补 空缺 ”。 

内 核 记录 了 系统 调用 表 中 的 所 有 已 注册 过 的 系统 加 用 的 列表 ， 存 储 在 sys_call_table 中 。 每 
一 种 体系 结构 中 ， 都 明确 定义 了 这 个 表 ， 在 x86-64 中 ， 它 定义 于 arcMi386/kernelsyscall 64.c 文 
件 中 。 这 个 表 为 每 一 个 有 效 的 系统 调用 指定 了 唯一 的 系统 调用 号 。 


5.3.2 系统 调用 的 性 能 
Linux 系统 调用 比 其 他 许多 操作 系统 执行 得 要 快 。Linux 很 短 的 上 下 文 切 换 时 间 是 一 个 重要 


return task tgid vnrlcurrent}; // returns current->tgid 


昌 ”你 可 能 会 想 为 什么 getpid0 返回 的 是 tgid‘ 即 线程 组 了 P) 呢 ? 原因 在 于 ， 对 于 普通 进程 来 说 ，TGID 和 PID 相等 。 
对 于 线程 来 说 ， 同 一 线程 组 内 的 所 有 线程 其 TGID 都 相等 。 这 使 得 这 些 线程 能 够 调用 getpid0 并 得 到 相同 的 PID。 
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原因 ， 进 出 内 核 都 被 优化 得 简洁 高 效 。 另 外 一 个 原因 是 系统 调用 处 理 程序 和 每 个 系统 调用 本 身 也 
都 非常 简洁 。 


5.4 系统 调用 处 理 程序 


用 户 空间 的 程序 无 法 直接 执行 内 核 代 码 。 它 们 不 能 直接 调用 内 核 空间 中 的 函数 ， 因 为 内 核 驻 
留 在 受 保护 的 地 址 空间 上 。 如 果 进 程 可 以 直接 在 内 核 的 地 址 空间 上 读 写 的 话 ， 系 统 的 安全 性 和 稳 
定性 将 不 复 存在 。 

所 以 ， 应 用 程序 应 该 以 某 种 方式 通知 系统 ， 告 诉 内 核 自己 需要 执行 一 个 系统 调用 ， 希 望 系统 
切换 到 内 核 态 ， 这 样 内 核 就 可 以 代表 应 用 程序 在 内 核 空间 执行 系统 调用 。 

通知 内 核 的 机 制 是 靠 软 中 断 实现 的 : 通过 引发 一 个 异常 来 促使 系统 切换 到 内 核 态 去 执行 异常 
处 理 程序 。 此 时 的 异常 处 理 程序 实际 上 就 是 系统 调用 处 理 程序 。 在 x86 系统 上 预定 义 的 软 中 断 是 
中 断 号 128， 通 过 int $0x80 指令 触发 该 中 断 。 这 条 指令 会 触发 一 个 异常 导致 系统 切换 到 内 核 态 并 
执行 第 128 号 异常 处 理 程序 ， 而 该 程序 正 是 系统 调用 处 理 程 序 。 这 个 处 理 程序 名 字 起 得 很 贴切 ， 
叫 system_call()。 它 与 硬件 体系 结构 紧密 相关 含 ，x86-64 的 系统 上 在 entry 64.S 文件 中 用 汇编 语 
言 编号。 最 近 ，x86 处 理 器 增加 了 一 条 叫做 sysenter 的 指令 。 与 int 中 断 指令 相 比 ， 这 条 指令 提供 
了 更 快 、 更 专业 的 陷入 内 核 执行 系统 调用 的 方式 。 对 这 条 指令 的 支持 很 快 被 加 入 内 核 。 且 不 管 系 
统 调 用 处 理 程序 被 如 何 调用 ， 用 户 空 间 引起 异常 或 陷 人 内 核 就 是 一 个 重要 的 概念 。 


5.4.1 “指定 恰当 的 系统 调用 


因为 所 有 的 系统 调用 陷 人 内 核 的 方式 都 一 样 ， 所 以 仅仅 是 陷 人 内 核 空间 是 不 够 的 。 因 此 必须 
把 系统 调用 号 一 并 传 给 内 核 。 在 x86 上 , 系统 调用 号 是 通过 eax 寄存 器 传递 给 内 核 的 。 在 陷 人 内 
核 之 前 ， 用 户 空间 就 把 相应 系统 调用 所 对 应 的 号 放 人 和 人 eax 中 。 这 样 系统 调用 处 理 程 序 一 旦 运行 ， 
就 可 以 从 eax 中 得 到 数据 。 其 他 体系 结构 上 的 实现 也 都 类 似 。 

system_call() 函数 通过 将 给 定 的 系统 调用 号 与 NR_syscalls 做 比较 来 检查 其 有 效 性 。 如 果 它 
大 于 或 者 等 于 NR_syscalls， 该 函数 就 返回 -ENOSYS。 否 则 ， 就 执行 相应 的 系统 调用 : 


Call *sys call table!(,®rax,s) 


由 于 系统 调用 表 中 的 表 项 是 以 64 位 (8 字 节 ) 类 型 存放 的 ， 所 以 内 核 需要 将 给 定 的 系统 调 
用 号 乘 以 4， 然 后 用 所 得 的 结果 在 访 表 中 查询 其 位 置 。 在 x86-32 系统 上 ， 代 码 很 类 似 ， 只 是 用 4 
代替 8， 参 见 图 5-2。 


5.4.2 参数 传递 


除了 系统 调用 号 以 外 ， 大 部 分 系统 调用 都 还 需要 一 些 外 部 的 参数 输入 。 所 以 ， 在 发 生 陷 人 的 
时 候 ， 应 该 把 这 些 参 数 从 用 户 空间 传 给 内 核 。 最 简单 的 办 法 就 是 像 传递 系统 调用 号 一 样 ， 把 这 些 


合 下面 许多 关于 系统 调用 处 理 程序 的 描述 都 是 针对 x86 版 本 的 。 但 不 用 担心 ， 所 有 体系 结构 上 的 实现 都 类 似 。 


夭 猎 三 用 61 


参数 也 存放 在 寄存 器 里 。 在 x86-32 系统 上 ，ebx、ecx、edx、esi 和 edi 按照 顺序 存放 前 五 个 参数 。 
需要 六 个 或 六 个 以 上 参数 的 情况 不 多 见 ， 此 时 ， 应 该 用 一 个 单独 的 寄存 器 存放 指向 所 有 这 些 参 数 
在 用 户 空间 地 址 的 指针 。 


ne a 


Ep ee was, ~、 a 1 , | 
调用 read() read() 封装 例 程 system_call() | 
i | 于 | 总 下 


ie 所 a 
ss pr 
J 


| Bu 


Cc 库 。” || 系统 调用 处 理 程序 。。 sys_read0 
read() wrapper 
用 户 空间 内 核 空间 
图 5-2 调用 系统 调用 处 理 程序 以 执行 一 个 系统 调用 


给 用 户 空 间 的 返回 值 也 通过 寄存 器 传递 。 在 x86 系统 上 ， 它 存放 在 eax 寄存 器 中 。 
5.5 系统 调用 的 实现 

实际 上 ， 一 个 Linux 的 系统 调用 在 实现 时 并 不 需要 太 关 心 它 和 系统 调用 处 理 程序 之 间 的 关 
系 。 给 Linux 添加 一 个 新 的 系统 调用 是 件 相 对 容易 的 工作 。 怎 样 设计 和 实现 一 个 系统 调用 是 难题 


所 在 ， 而 把 它 加 到 内 核 里 却 无 须 太 多 周折 。 让 我 们 关注 一 下 实现 一 个 新 的 Linux 系统 调用 所 需 的 
步骤 。 





5.5.1 实现 系统 调用 


实现 一 个 新 的 系统 调用 的 第 一 步 是 决定 它 的 用 途 。 它 要 做 些 什 么 ? 每 个 系统 调用 都 应 该 有 一 
个 明确 的 用 途 。 在 Linux 中 不 提倡 采用 多 用 途 的 系统 调用 (一 个 系统 调用 通过 传递 不 同 的 参数 值 
来 选择 完成 不 同 的 工作 )。ioctlo 融 是 一 个 很 好 的 例子 ， 告 诉 了 我 们 不 应 当 去 做 什么 。 

新 系统 调用 的 参数 、 返 回 值 和 错误 码 又 该 是 什么 呢 ? 系统 调用 的 接口 应 该 力求 简洁 ， 参 数 尽 
可 能 少 。 系 统 调 用 的 语义 和 行为 非常 关键 ; 因为 应 用 程序 依赖 于 它们 ， 所 以 它们 应 力求 稳定 ， 不 
做 改动 。 设 想 一 下 ， 如 果 功 能 多 次 改变 会 怎样 。 新 的 功能 是 否 可 以 追加 到 系统 调用 亦 或 是 否 某 个 
改变 将 需要 一 个 全 新 的 函数 ? 是 否 可 以 容易 地 修订 错误 而 不 用 破坏 同 后 兼容 ? 很 多 系统 调用 提供 
了 标志 参数 以 确保 向 前 兼容 。 标 志 并 不 是 用 来 让 单个 系统 调用 具有 多 个 不 同 的 行为 〈《 如 前 所 述 ， 
这 是 不 允许 的 )， 而 是 为 了 即使 增加 新 的 功能 和 选项 ， 也 不 破坏 向 后 兼容 或 不 需要 增加 新 的 系统 
调用 。 

设计 接口 的 时 候 要 尽量 为 将 来 多 做 考虑 。 你 古 不 是 对 函数 做 了 不 必要 的 限制 ? 系统 调用 设计 
得 越 通用 越 好 。 不 要 假设 这 个 系统 调用 现在 怎么 用 将 来 也 一 定 就 是 这 么 用 。 系 统 调用 的 目的 可 能 
不 变 ， 但 它 的 用 法 却 可 能 改变 。 这 个 系统 调用 可 移植 吗 ? 别 对 机 器 的 字 市 长 度 和 字 市 序 做 假设 。 
第 19 章 将 讨论 这 个 话题 。 要 确保 不 对 系统 调用 做 错误 的 假设 ， 否 则 将 来 这 个 调用 就 可 能 会 崩 窟 。 
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记 住 Unix 的 格言 : “提供 机 人 制 而 不 是 策略 ”。 

当 你 写 一 个 系统 调用 的 时 候 ， 要 时 刻 注 意 可 移植 性 和 健壮 性 ， 不 但 要 考虑 当前 ， 还 要 为 将 来 
做 打算 。 基 本 的 Unix 系统 调用 经 受 住 了 时 间 的 考验 ; 它们 中 的 很 大 一 部 分 到 现在 都 还 和 30 年 前 
一 样 适 用 和 有 效 。 


5.5.2 参数 验证 


系统 调用 必须 仔细 检查 它们 所 有 的 参数 是 否 合 法 有 效 。 系 统 调用 在 内 核 空 间 执 行 ， 如 果 任 由 
用 户 将 不 合法 的 输入 传递 给 内 核 ， 那 么 系统 的 安全 和 稳定 将 面临 极 大 的 考验 。 

举例 来 说 ， 与 文件 VO 相关 的 系统 调用 必须 检查 文件 描述 符 是 否 有 效 。 与 进程 相关 的 函数 必 
须 检查 提供 的 PID 是否 有 效 。 必 须 检查 每 个 参数 ， 保 证 它们 不 但 合法 有 效 ， 而 且 正 确 。 进 程 不 
应 当 让 内 核 去 访问 那些 它 无 权 访问 的 资源 。 

最 重要 的 一 种 检查 就 是 检查 用 户 提供 的 指针 是 否 有 效 。 试 想 ， 如 果 一 个 进程 可 以 给 内 核 传递 
指针 而 又 无 须 检 查 ， 那 么 它 就 可 以 给 出 一 个 它 根 本 就 没有 访问 权限 的 指针 ， 哄 骗 内 核 去 为 它 拷贝 
本 不 允许 它 访问 的 数据 ， 如 原本 属于 其 他 进程 的 数据 或 者 不 可 读 的 上 映射 数据 。 在 接收 一 个 用 户 空 
间 的 指针 之 前 ， 内 核 必 须 保证 ; 

* 指针 指向 的 内 存 区 域 属 于 用 户 空间 。 进 程 决 不 能 哄骗 内 核 去 读 内 核 空间 的 数据 。 

* 指针 指向 的 内 存 区 域 在 进程 的 地 址 空间 里 。 进 程 决 不 能 哄骗 内 核 去 读 其 他 进程 的 数据 。 

， 如 果 是 读 ， 读 内 存 应 被 标记 为 可 读 ; 如 果 是 写 ， 读 内 存 应 被 标记 为 可 写 ; 如 果 是 可 执行 ， 

该 内 存 被 标记 为 可 执行 。 进 程 决 不 能 绕 过 内 存 访问 限制 。 

内 核 提供 了 两 个 方法 来 完成 必须 的 检查 和 内 核 空间 与 用 户 空间 之 间 数 据 的 来 回 拷贝 。 注 意 ， 
内 核 无 论 何 时 都 不 能 轻率 地 接受 来 自用 户 空 间 的 指针 ! 这 两 个 方法 中 必须 经 常 有 一 个 被 使 用 。 

为 了 向 用 户 空 间 写 入 数据 ， 内 核 提 供 了 copy_to_user0， 它 需要 三 个 参数 。 第 一 个 参数 是 进 
程 空间 中 的 目的 内 存 地 址 ， 第 二 个 是 内 核 空间 内 的 源 地 址 ， 最 后 一 个 参数 是 需要 拷贝 的 数据 长 度 
( 字 节 数 )。 

为 了 从 用 户 空间 读 取 数据 ， 内 核 提供 了 copy_from_user()， 它 和 copy_to_user0O 相似 。 该 孙 
数 把 第 二 个 参数 指定 的 位 置 上 的 数据 拷贝 到 第 一 个 参数 指定 的 位 置 上 ， 拷 贝 的 数据 长 度 由 第 三 个 
参数 决定 。 

如 果 执 行 失败 ， 这 两 个 国 数 返 回 的 都 是 没 能 完成 拷贝 的 数据 的 字 节 数 。 如 果 成 功 ， 则 返回 
0。 当 出 现 上 述 错 误 时 ， 系 统 调用 返回 标准 -EFAULT。 

让 我 们 以 一 个 既 用 了 copy_from_user0 又 用 了 copy_to_user() 的 系统 调用 作 例 子 进行 考察 。 
这 个 系统 调用 silly_copy0 毫 无 实际 用 处 ， 它 从 第 一 个 参数 里 拷贝 数据 到 第 二 个 参数 。 这 种 用 途 
让 人 无 法 理解 ， 它 毫 无 必要 地 让 内 核 空 间作 为 中 转 站 ， 把 用 户 空 间 的 数据 从 一 个 位 置 复制 到 另外 
一 个 位 置 。 但 它 却 能 演示 出 上 述 函 数 的 用 法 。 

silly_copy 没有 实际 价值 的 系统 调用 ， 它 把 len 字 节 的 数据 从 'src' 拷贝 到 'dst'， 毫 无 理由 地 让 内 核 空 


* 间作 为 中 转 站 。 但 这 的 确 是 个 好 例子 
wd 
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SYSCALL DEFINE3 (Silly copy, 
unsigned long *, Srce, 
unsigned long *, dst, 
unsigned long len) 


unsigned long buf:; 

ra 将 用 户 地 址 室 间 中 的 src 拷贝 进 buE */ 

if {copy from user (gbuf, src, len)) 
return -EFAULT; 

/* 将 buf 乒 见 进 用 户 地 址 空间 中 的 ast */ 

if {copy_ to user(dst, &buf, len)) 
return -EFAULT:; 

/* 返回 拷贝 的 数据 量 */ 

return len; 


} 

注意 ，copy_to_user0 和 copy_from_user() 都 有 可 能 引起 阻塞 。 当 包含 用 户 数据 的 页 镀 换 出 
到 硬盘 上 而 不 是 在 物理 内 存 上 的 时 候 ， 这 种 情况 就 会 发 生 。 此 时 ， 进 程 就 会 休眠 ， 直 到 缺 页 处 理 
程序 将 读 页 从 硬盘 重新 换 回 物理 内 存 。 

最 后 一 项 检查 针对 是 否 有 合法 权限 。 在 老 版 本 的 Linux 内 核 中 ， 需 要 超级 用 户 权 限 的 系统 调 
用 才 可 以 通过 调用 suser0 函数 这 个 标准 动作 来 完成 检查 。 这 个 函数 只 能 检查 用 户 是 否 为 超级 用 
户 ; 现在 它 已 经 被 一 个 更 细 和 粒度 的 “权能 ”机 制 代 替 。 新 的 系统 允许 检查 针对 特定 资源 的 特殊 权 
限 。 调 用 者 可 以 使 用 capable0 函数 来 检查 是 否 有 权能 对 指定 的 资源 进行 操作 ， 如 果 它 返回 非 0 
值 ， 调 用 者 就 有 权 进 行 操作 ， 返 回 0 则 无 权 操 作 。 举 个 例子 ，capable(CAP_ SYS_NICE) 可 以 检 
查 调用 者 是 否 有 权 改 变 其 他 进程 的 nice 值 。 上 默认 情况 下 ， 属 于 超级 用 户 的 进程 拥有 所 有 权利 向 
非 超级 用 户 没 有 任何 权利 。 例 如 ， 下 面 是 reboot0 系统 调用 ， 注 意 ， 第 一 步 是 如 何 确保 调用 进程 
具有 CAP_SYS_REBOOT 权能 。 如 果 那 样 一 个 条 件 语 句 被 删除 ， 任 何 进程 都 可 以 启动 系统 了 。 


SYSCALL DEFINE4 (reboot, 
int, magicl, 
int, magic2, 
unsigned int, cmd, 
Void user *#, arg) 


char buffter[256]; 


/* 我 们 只 信任 启动 系统 的 系统 管理 员 */ 
if (L!capablel(CRP SYS BOOT)) 
return -EPERM,; 


/* 为 了 安全 起 见 ， 我 们 需要 "magic" 套数 */ 
if (magicl != LINUX REBOOT MAGIC1 || 
(magic2 != LINUX REBOOT MAGIC2 && 
magic2 != LINUX REBOOT MAGIC2A SEE 
magic2 l= LINUX REEOOT MAGIC2B && 
magic2 != LINUX REBOOT MAGIC2C)) 
retlirn -EINVAL; 


/* 当 未 设置 pm_power_off 时 ， 请 不 要 试图 让 power_off 的 代码 看 起 来 像 是 可 以 停机 ， 而 应 该 采用 更 
简单 的 方式 */ 
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if ((cmd == LINUX REBOOT CMD POWER OFF) && !pm power off) 
cmd = LINUX REBOOT CMD HALT.; 


lock kernell(); 

Switch (cmd) { 

case LINUX REBOOT CMD RESTART: 
kernel restart (NULL).; 
break:; 


case LINUX REBOOT CMD CAD ON: 
CAD:=1; 
break; 

case LINUX REBOOT CMD CAD OFF: 
CAD= 0; 
break; 


Case LINUX REBOOT CMD HALT: 
kernel halt{(}); 
unlock kernel(); 
do _ exit (0); 
break; 


case LINUX REBOOT CMD POWER OFF: 
kernel power off|(); 
unlock kernel (); 
do exit (0); 
break:; 


case LINUX REBOOT CMD RESTART2: 
if (strncpy from user(&buffer[0], arg, sizeof (buffer) - 1) < 0) | 

unlock kernel(); 

return -EFAULT; 


} 


buffer [sizeof (buffer} - 1] = AND; 


kernel restart (buffer); 
breaKk; 


default: 
unlock kernel (}; 
return -EINVAL:; 
} 
unlock kernel{(}; 
return 0; 
} 
参见 <linux/capability.h>， 其 中 包含 一 份 所 有 这 些 权 能 和 其 对 应 的 权限 的 列表 。 


5.6 系统 调用 上 下 文 
在 第 3 章 中 曾经 讨论 过 ， 内 核 在 执行 系统 调用 的 时 候 处 于 进程 上 下 文 。current 指针 指向 当 
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前 任务 ， 即 引发 系统 调用 的 那个 进程 。 

在 进程 上 下 文中 ， 内 核 可 以 休眠 《比如 在 系统 调用 阻塞 或 显 式 调用 schedule() 的 时 候 ) 并且 
可 以 被 抢占 。 这 两 点 都 很 重要 。 首 先 ， 能 够 休眠 说 明 系统 调 用 可 以 使 用 内 核 提供 的 绝 大 部 分 功 
能 。 在 第 7 章 中 我 们 会 看 到 ， 休 眼 的 能 力 会 给 内 核 编程 带 来 极 大 便利 9。 在 进程 上 下 文中 能 够 被 
抢占 其 实 表明 ， 像 用 户 空 间 内 的 进程 一 样 ， 当 前 的 进程 同样 可 以 被 其 他 进程 抢占 。 因 为 新 的 进程 
可 以 使 用 相同 的 系统 调用 ， 所 以 必须 小 心 ， 保 证 该 系统 调用 是 可 重 和 的。 当然 ， 这 也 是 在 对 称 多 
处 理 中 必须 同样 关心 的 问题 。 关 于 可 重 入 的 保护 涵盖 在 第 9 章 和 第 10 章 中 。 

当 系统 调用 返回 的 时 候 ， 控 制 权 仍然 在 system_call0 中 ， 它 最 终 会 负责 切换 到 用 户 空间 ， 并 
让 用 户 进 程 继续 执行 下 去 。 


5.6.1 绑 定 一 个 系统 调用 的 最 后 步 又 


当 编 写 完 一 个 系统 调用 后 ， 把 它 注 册 成 一 个 正式 的 系统 调用 是 件 琐碎 的 工作 : 

1) 首先 ， 在 系统 调用 表 的 最 后 加 和 一 个 表 项 。 每 种 支持 该 系统 调用 的 硬件 体系 都 必须 做 这 
样 的 工作 《〈 大 部 分 的 系统 调用 都 针对 所 有 的 体系 结构 )。 从 0 开始 算 起 ， 系 统 调用 在 该 表 中 的 位 
置 就 是 它 的 系统 调用 号 。 如 第 10 个 系统 调用 分 配 到 的 系统 调用 号 为 9。 

2) 对 于 所 支持 的 各 种 体系 结构 ， 系 统 调用 号 都 必须 定义 于 <asm/unistd.h> 中 。 

3) 系统 碳 用 必须 饼 编 译 进 内 核 映 象 〈 不 能 被 编译 成 模块 )。 这 只 要 把 它 放 进 kemel/ 下 的 一 
个 相关 文件 中 就 可 以 了 ， 比 如 sys.c， 它 包含 了 各 种 各 样 的 系统 调用 。 

让 我 们 通过 一 个 虚构 的 系统 调用 foo0 来 仔细 观察 一 下 这 些 步 最 。 首 先 ， 我 们 要 把 sys_foo 
加 入 到 系统 调用 表 中 去 。 对 于 大 多 数 体系 结构 来 说 ， 该 表 位 于 entry.s 文件 中 ， 形 式 如 下 ; 


ENTRY (sys call table) 
.long sys restart syscall /二 0 二 / 
long Sys exit 
-long sys fork 
.long sys read 
long sys write 
.long sys open i* 5 */ 


.long sys eventfd2 

:long sys epoll createl 

.long sys dup3 i* 330 */ 
.long sys pipe2 

.long sys inotify initl 

:liong sys preadv 

long sys pwritev 


蝗 ” 中 断 处 理 程序 不 能 休眠 ， 这 使 得 中 断 处 理 程序 所 能 进行 的 操作 较 之 运行 在 进程 上 下 文中 的 系统 调用 所 能 进行 
的 操作 受到 了 极 大 的 限制 。 
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.long sys rt tgsigqueueinfo /i* 335 */ 
.long Sys perf event open 
long sys_ recvmmag 


我 们 把 新 的 系统 调用 加 到 这 个 表 的 末尾 : 


long sys_ foo 


虽然 没有 明确 地 指定 编号 ， 但 我 们 加 入 的 这 个 系统 调用 被 按照 次 序 分 配给 了 338 这 个 系统 
调用 号 。 对 于 每 种 需要 支持 的 体系 结构 ， 我 们 都 必须 将 自己 的 系统 调用 加 入 到 其 系统 调用 表 中 
去 。 每 种 体系 结构 不 需要 对 应 相同 的 系统 调用 号 。 系 统 调用 号 是 专属 于 体系 结构 ABI (应 用 程序 
二 进 制 接口 ) 的 部 分 。 通 常 ， 你 需要 让 系统 调用 适应 每 种 体系 结构 。 你 可 以 注意 一 下 ， 每 隔 5 个 
表 项 就 加 入 一 个 调用 号 注释 的 习惯 ， 这 可 以 在 查找 系统 调用 对 应 的 调用 号 时 提供 方便 。 

接 下 来 ， 我 们 把 系统 调用 号 加 入 到 <asm/unistd.h> 中 ， 它 的 格式 如 下 : 


宣 


* 本 文件 包含 系统 调用 号 
Hdefine _ NR restart syscall 0 
#define NR exit 1 
#define NR fork 2 
#define NR read 3 
#define NR write 4 
#define _ NR open 5 
#define NR signalfda 327 
#define NR eventfd2 328 
#define NR epoll create]l 329 
#define NR dup3 330 
#define NR pipe2 331 
Hdefine NR inotify initl 332 
#define NR preadv 333 
#define NR pwritev 3344 


Hdefine NR rt tgsigqueueinfo 335 
Hdefine _ NR perf event open 336 
Hdefine. _ NR recvmmsg 337 


然后 ， 我 们 在 该 列表 中 加 入 下 面 这 行 : 

#define NR foo 33 提 

最 后 ， 我 们 来 实现 foo0 系统 调用 。 无 论 何 种 配置 ， 该 系统 调用 都 必须 编译 到 核心 的 
内 核 映 象 中 去 ， 所 以 在 这 个 例子 中 我 们 把 它 放 进 kernel/sys.c 文件 中 。 你 也 可 以 将 其 放 到 与 
其 功能 联系 最 紧密 的 代码 中 去 ， 假 如 它 的 功能 与 调度 相关 ， 那 么 你 也 可 以 把 它 放 到 kernel/ 
sched.c 中 去 。 


#include <asm/page.h> 
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A 

* gys_foo - 每 小 人 喜欢 的 系统 调用 
* 退回 每 个 进程 的 内 核 栈 大 小 

机 


asmlinkage long sys foo(void) 


return THREAD SI2E; 


} 
就 是 这 样 ! 现在 就 可 以 启动 内 核 并 在 用 户 空 间 调用 foo() 系统 调用 了 。 
5.6.2 ”从 用 户 室 间 访问 系统 调用 


通常 ， 系 统 调用 人 靠 C 库 支 持 。 用 户 程 序 通 过 包含 标准 头 文件 并 和 C 库 链 接 ， 就 可 以 使 用 系 
统 调 用 〈 或 者 调用 库 函 数 ， 再 由 库 函 数 实际 调用 )。 但 如 果 你 仅仅 写 出 系统 调用 ，glibc 库 恐 怕 并 
不 提供 支持 。 

值得 庆幸 的 是 ，Linux 本 身 提供 了 一 组 宏 ， 用 于 直接 对 系统 调用 进行 访问 。 它 会 设置 好 寄存 
器 并 调用 陷入 指令 。 这 些 宏 是 _syscallr0， 其 中 普 的 范围 从 0 到 6， 代 表 需 要 传递 给 系统 调用 的 
参数 个 数 ， 这 是 由 于 该 宏 必 须 了 解 到 底 有 多 少 参 数 按照 什么 次 序 压 人 寄存 器 。 举 个 例子 ，open0 
系统 调用 的 定义 是 : 


long openlconst char *filename, int flaggs, int mode) 


而 不 靠 库 支持 ， 直 接 调 用 此 系统 调用 的 宏 的 形式 为 : 

#define NR open 3 

_syscall3(long, open, const char*, filename, int, flags, int, mode) 

这 样 ， 应 用 程序 就 可 以 直接 使 用 open()。 

对 于 每 个 宏 来 说 ， 都 有 2+2Xn 个 参数 。 第 一 个 参数 对 应 着 系统 调用 的 返回 值 类 型 。 第 二 
个 参数 是 系统 调用 的 名 称 。 再 以 后 是 按照 系统 调用 参数 的 顺序 排列 的 每 个 参数 的 类 型 和 名 称 。 
_NR_open 在 <asm/unistd.h> 中 定义 ， 是 系统 调用 号 。 读 宏 会 被 扩展 成 为 内 柚 汇 编 的 C 函数 ; 由 
汇编 语言 执行 前 面 内 容 中 所 讨论 的 步骤 ， 将 系统 调用 号 和 参数 压 人 寄存 器 并 触发 软 中 断 来 陷 人 内 
核 。 调 用 open0 系统 调用 直接 把 上 面 的 宏 放置 在 应 用 程序 中 就 可 以 了 。 

让 我 们 写 一 个 宏 来 使 用 前 面 编写 的 foo0 系统 调用 ， 然 后 再 写 出 测试 代码 炫耀 一 下 我 们 所 做 
的 努力 。 

#define NR foo 283 

_ sysacall0 (long, foo) 


int main {1} 


[ 


long stack size:; 


stack size = foo (); 
printf (“The kernel stack Size is %ld\n", stack size); 
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5.6.3 ”为 什么 不 通过 系统 调用 的 方式 实现 


前 面 的 内 容 已 经 告诉 大 家 ， 建 立 一 个 狐 的 系统 再 用 非 利 容易 ， 但 却 绝 不 提倡 这 么 做 。 的 确 ， 
你 应 该 多 多 练习 如 何 给 一 个 新 的 系统 调用 加 警告 与 限制 。 通 条 都 会 有 更 好 的 办 法 用 来 代替 新 建 一 
个 系统 调用 以 作 实现 。 让 我 们 看 看 采用 系统 调用 作为 实现 方式 的 利 坏 和 替代 的 方法 。 

建立 一 个 新 的 系统 调用 的 好 处 : 

* 系统 调用 创建 容易 且 使 用 方便 。 

“Linux 系统 调用 的 高 性 能 显而易见 。 
问题 是 : 

* 你 需要 一 个 系统 调用 号 ， 而 这 需要 一 个 内 核 在 处 于 开发 版 本 的 时 候 由 官方 分 配给 你 。 

* 系统 调用 被 加 入 稳定 内 核 后 就 被 固化 了 ， 为 了 避免 应 用 程序 的 出 涡 ， 它 的 接口 不 允许 做 改动 。 

* 需要 将 系统 调用 分 别 注册 到 每 个 需要 支持 的 体系 结构 中 去 。 

"在 脚本 中 不 容易 调用 系统 调用 ， 也 不 能 从 文件 系统 直接 访问 系统 调用 。 

。 由 于 你 需要 系统 调用 号 ， 因 此 在 主 内 核 树 之 外 是 很 难 维护 和 使 用 系统 调用 的 。 

* 如 果 仅 仅 进行 简单 的 信息 交换 ， 系 统 调 用 就 大 材 小 用 了 。 
替代 方法 ; 

实现 一 个 设备 节点 ， 并 对 此 实现 read0 和 write0。 使 用 ioctl( 对 特定 的 设置 进行 操作 或 者 对 
特定 的 信息 进行 检索 。 

“*“ 像 信号 量 这 样 的 革 些 接口 ， 可 以 用 文件 摘 述 符 来 表示 ， 因 此 也 就 可 以 接 上 述 方 式 对 其 进行 

操作 。 

* 把 增加 的 信息 作为 一 个 文件 放 在 sysfs 的 合适 位 置 。 

对 于 许多 接口 来 说 ， 系 统 调用 都 被 视 为 正确 的 解决 之 道 。 但 Linux 系统 尽量 避免 每 出 现 一 种 
新 的 抽象 就 简单 的 加 入 一 个 新 的 系统 调用 。 这 使 得 它 的 系统 调用 接口 简洁 得 令 人 叹为观止 ， 也 就 
避免 了 许多 后 悔 和 反对 意见 (系统 调用 再 也 不 被 使 用 或 支持 )。 新 系统 调用 增添 频率 很 低 也 反映 
出 Linux 是 一 个 相对 较为 稳定 并 且 功 能 已 经 较为 完善 的 操作 系统 。 


5.7 ”小结 


在 本 章 ， 我们 描述 了 系统 调用 到 底 是 什么 ， 它 们 与 库 函 数 和 应 用 程序 接口 API) 有 怎样 的 
关系 。 然 后 ， 我 们 考察 了 Linux 内 核 如 何 实现 系统 调用 ， 以 及 执行 系统 调用 的 连锁 反应 : 陷 人 内 
核 ， 传 递 系统 调用 号 和 参数 ， 执 行 正确 的 系统 调用 函数 ， 并 把 返回 值 带 回 用 户 空间 。 

然后 ， 我 们 讨论 了 如 何 增加 系统 调用 ， 并 提供 了 从 用 户 空 间 调用 系统 调用 的 简单 例子 。 整 个 
过 程 相当 容易 ! 增加 一 个 新 的 系统 调用 没有 什么 难 的 ， 这 一 过 程 也 就 是 系统 调用 的 实现 过 程 。 本 
书 的 其 余部 分 讨论 了 编写 规范 的 、 最 优化 的 、 安 全 的 系统 调用 所 遵循 的 概念 和 内 核 接口 规范 。 

最 后 ， 我 们 通过 讨论 实现 系统 调用 的 优 缺 点 以 及 列举 其 替代 方案 的 形式 对 全 章 内 容 进行 了 
总 结 。 


第 (6) 章 
内 核 数据 结构 


本 章 将 介绍 几 种 Linux 内 核 常 用 的 内 建 数据 结构 。 和 其 他 很 多 大 型 项 目 一 样 ，Linux 内 核 
实现 了 这 些 通用 数据 结构 ， 而 且 提 倡 大 家 在 开发 时 重用 。 内 核 开 发 者 应 访 尽 可 能 地 使 用 这 些 数 
据 结 构 ， 而 不 要 搞 自 作 主 张 的 山寨 方法 。 在 下 面 的 内 容 中 ， 我 们 讲述 这 些 通 用 数据 结构 中 最 有 
用 的 几 个 ; 

* 链表 

* 队列 

“上 映射 

* 二 叉 树 

本 章 最 后 还 要 讨论 算法 复杂 度 ， 以 及 何 种 规模 的 算法 或 数据 结构 可 以 相对 容易 地 支持 更 大 的 
输入 集合 。 


6.1 链表 


链表 是 Linux 内 核 中 最 简单 、 最 普通 的 数据 结构 。 链 表 是 一 种 存放 和 操作 可 变数 量 元 素 (党 
称 为 节点 ) 的 数据 结构 。 链 表 和 静态 数组 的 不 同 之 处 在 于 ， 它 所 包含 的 元 素 都 是 动态 创建 并 插入 
链表 的 ， 在 编译 时 不 必 知 道具 体 需 要 创建 多 少 个 元 素 。 另 外 也 因为 链表 中 每 个 元 素 的 创建 时 间 各 
不 相同 ， 所 以 它们 在 内 存 中 无 须 占用 连续 内 存 区 。 正 是 因为 元 素 不 连续 地 存放 ， 所 以 各 元 素 需 要 
通过 某 种 方式 被 连接 在 一 起 。 于 是 每 个 元 素 都 包含 一 个 指向 下 一 个 元 素 的 指针 ， 当 有 元 素 加 入 链 
表 或 从 链表 中 删除 元 素 时 ， 简 单调 整 指向 下 一 个 节点 的 指针 就 可 以 了 。 


6.1.1 单 向 链表 和 双向 链表 


可 以 用 一 种 最 简单 的 数据 结构 来 表示 这 样 一 个 链表 : 
/* 一 个 链表 中 的 一 个 元 素 */ 


struct list element { 
void *data; A 有 有效 数 据 */ 
struct list element *next:; 1/* 指 向 下 一 个 元 素 的 指针 */ 


| 
图 6-1 描述 一 个 链表 结构 体 。 
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图 6-1 一 个 简单 链表 
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在 有 些 链 表 中 ， 每 个 元 素 还 包含 一 个 指向 前 一 个 元 素 的 指针 ， 因 为 它们 可 以 同时 向 前 和 向 后 
相互 连接 ， 所 以 这 种 链表 被 称 作 双 向 链表 。 而 类 似 于 图 6-1 所 示 的 那 种 只 能 向 后 连接 的 链表 被 称 
作 单 向 链表 。 

表示 双向 链表 的 一 种 数据 结构 如 下 : 

/* 一 个 链表 中 的 一 个 元 素 */ 

struct list element 

void *data; /* 有 效 数据 */ 


struct list element *next; /* 指向 下 一 -个 元 素 的 指针 */ 
Struct list element *prev; /* 指向 前 一 个 元 素 的 指针 */ 


6-2 描述 了 一 个 双向 链表 。 
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图 6-2 一 个 双向 链表 
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6.1.2 环形 链表 


通常 情况 下 ， 因 为 链表 中 最 后 一 个 元 素 不 再 有 下 一 个 元 素 ， 所 以 将 链表 尾 元 素 中 的 向 后 指针 
设置 为 NULL， 以 此 表明 它 是 链表 中 的 最 后 一 个 元 素 。 但 在 有 些 链 表 中 ， 末 尾 元 素 并 不 指向 特殊 
值 ， 相 反 ， 它 指 回 链表 的 首 元 素 。 这 种 链表 因为 首尾 相连 ， 所 以 被 称 为 是 环形 链表 。 环 形 链表 也 
存在 双生 链表 和 单 癌 链表 两 种 形式 。 在 环形 双向 链表 中 ， 首 节点 的 向 前 指针 指向 尾 节 点 。 图 6-3 
和 图 6-4 分 别 表示 单 癌 和 环形 双 问 链表 。 





6-3 环形 单 向 链表 





图 6-4 ”环形 双向 链表 
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因为 环形 双 回 链表 提供 了 最 大 的 灵活 性 ， 所 以 Linux 内 核 的 标准 链表 就 是 采用 环形 双向 链表 
形式 实现 的 。 


6.1.3 ” 沿 链表 移动 


沿 链表 移动 只 能 是 线性 移动 。 先 访问 某 个 元 素 ， 然 后 沿 该 元 素 的 向 后 指针 访问 下 一 个 元 素 ， 
不 断 重 复 这 个 过 程 ， 就 可 以 沿 链表 内 后 移动 了 。 这 是 一 种 最 简单 的 沿 链表 移动 方法 ， 也 是 最 适合 
访问 链表 的 方法 。 如 果 需 要 随机 访问 数据 ， 一 般 不 使 用 链表 。 使 用 链表 存放 数据 的 理想 情况 是 ， 
需要 过 历 所 有 数据 或 需要 动态 加 入 和 删除 数据 时 。 

有 时 ， 首 元 素 会 用 一 个 特殊 指针 表示 一 一 该 指针 称 为 头 指针 ， 利 用 头 指针 可 方便 、 快 速 地 找 
到 链表 的 “起 始 端 "。 在 非 环 形 链表 里 ， 向 后 指针 指向 NULL 的 元 素 是 昆 元 素 ， 而 在 环形 链表 里 
向 后 指针 指向 头 元 素 的 元 素 是 尾 元 素 。 遍 历 一 个 链表 需要 线性 地 访问 从 第 一 个 元 素 到 最 后 一 个 元 
素 之 间 的 所 有 元 素 。 对 于 双 癌 链表 来 说 ， 也 可 以 反 向 遍历 链表 ， 可 以 从 最 后 一 个 元 素 线性 访问 到 
第 一 个 元 素 。 当 然 还 可 以 从 链表 中 的 指定 元 素 开始 向 前 和 向 后 访问 数 个 元 素 ， 并 不 一 定 要 访问 整 
个 链表 。 


6.1.4 Linux 内 核 中 的 实现 


相 比 普遍 的 链表 实现 方式 (包括 前 面 章 忆 描述 的 通用 方法 )，Linux 内 核 的 实现 可 以 说 独 树 
一 帜 。 回 忆 旱 先 提 到 的 数据 (或 者 一 组 数据 ， 比 如 一 个 stmuct) 通过 在 内 部 添加 一 个 指向 数据 的 
next (或 者 previous) 节点 指针 ， 才 能 串联 在 链表 中 。 比 如 ， 假 定 我 们 有 一 个 fox 数据 结构 来 描 
述 犬 科 动 物 中 的 一 员 。 


struct fox { 





unsigned long tail length.; /* 尾巴 长 度 ， 以 厘米 为 单位 */ 
unsigned long weight; fs 重量 ，L 以 千克 为 单位 */ 
bocl is fantastic; 1/* 这 内 殊 狸 奇 好 吗 ? */ 


} 
存储 这 个 结构 到 链表 里 的 通常 方法 是 在 数据 结构 中 嵌 人 一 个 链表 指针 ， 比 如 : 


struct fox 1 


unsigned long tail length; /* 尾巴 长 度 ， 以 厘米 为 单位 */ 


unsigned long weight; . /* 重量 ， 以 千克 为 单位 */ 
bool is fantastic; 1/* 这 只 饭 理 奇 好 吗 ? */ 
struct fox next ; /At 指向 下 一 个 狐狸 */ 
struct fox Drev; As 指 同 前 一 个 犯 剖 */ 


}; 

Linux 内 核 方式 与 众 不 同 ， 它 不 是 将 数据 结构 塞 人 链表 ， 而 是 将 链表 节点 塞 人 数据 结构 ! 

1. 链表 数据 结构 

在 过 去 ， 内 核 中 有 许多 链表 的 实现 ， 该 选 一 个 既 简 单 、 又 高 效 的 链表 来 统一 它们 了 。 在 2.1 
内 核 开发 系列 中 ， 首 次 引入 了 官方 内 核 链表 实现 。 从 此 内 核 中 的 所 有 链表 现在 都 使 用 官方 的 链表 
实现 了 ， 千 万 不 要 再 自己 造 轮子 队 ! 

链表 代码 在 头 文件 <linux/list.h> 中 声明 ， 其 数据 结构 很 简单 : 
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struct list head { 
struct list head *next 
struct list head *prev:; 


}; 


next 指针 指 辣 下 一 个 链表 地 反 ，prev 指针 指 阿 前 一 个 。 然 而 ， 似 平 这 里 还 看 不 出 它们 有 多 大 
的 作用 。 到 底 什 么 才 是 链表 存储 的 具体 内 容 呢 ? 其 实 关键 在 于 理解 list_head 结构 是 如 何 使 用 的 。 


struct fox 1 


unsigned long tail length; /* 尾巴 长 度 ， 以 厘米 为 单位 */ ， 


unsigned long weight; /jz 重量， 以 千克 为 单位 */ 
bool is fantastic; /* 这 只 狐狸 奇妙 吗 ? */ 
atruct list head list; /= 所 有 fox 结构 体形 成 链表 */ 


}; 

上 述 结构 中 ，fox 中 的 list. next 指向 下 一 个 元 素 ，list prev 指向 前 一 个 元 素 。 现 在 链表 已 经 
能 用 了 ， 但 是 显然 还 不 够 方便 。 因 此 内 核 又 提供 了 一 组 链表 操作 例 程 。 比 如 list_add0 方法 加 和 人 
一 个 新 市 点 到 链表 中 。 但 是 ， 这 些 方法 都 有 一 个 统一 的 特点 : 它们 只 接受 list_head 结构 作为 参 
数 。 使 用 宏 container_of0) 我 们 可 以 很 方便 地 从 链表 指针 找到 父 结构 中 包含 的 任何 变量 。 这 是 因 
为 在 C 语言 中 ， 一 个 给 定 结构 中 的 变量 偏 移 在 编译 时 地 址 就 被 ABI 固定 下 来 了 。 

#define container of (ptr, type, member) {1 \ 


const typeof{l {(type *}0}-smember ) * mptr = (ptr}); \ 
(type *){ (char *) mptr - offsetof (type,member) });}) 


使 用 container_ of 宏 ， 我 们 定义 一 个 简单 的 函数 便 可 返回 包含 list_head 的 父 类 型 结构 体 : 


#define list entryl(ptr, type, member) 
container of (ptr, type, member) 


依靠 list_entry0 方法 ， 内 核 提 供 了 创建 、 操 作 以 及 其 他 链表 管理 的 各 种 例 程 一 一 所 有 这 些 
方法 都 不 需要 知道 list_head 所 檬 和 人 对 象 的 数据 结构 。 

2. 定义 一 个 链表 

正如 看 到 的 : list_head 本 身 其 实 并 没有 意义 一 一 它 需 要 被 嵌入 到 你 自己 的 数据 结构 中 才能 生效 : 


struct fox f 


unsigned long tail length; /* 尾巴 长 度 ， 以 厘米 为 单位 */ 


unsigned long weight ; /+ 重量， 以 千克 为 单位 */ 
bool ie fantastic; /* 这 只 狐 理 奇妙 吗 ? */ 
struct list head 1ieti /* 所 有 fox 结构 体形 成 链表 */ 


}; 


链表 需要 在 使 用 前 初始 化 。 因 为 多 数 元 素 都 是 动态 创建 的 (也 许 这 就 是 需要 链表 的 原因 )， 
因此 最 常见 的 方式 是 在 运行 时 初始 化 链表 。 


atruct fox *red fox; 

red fox = kmalloclsizeof (*red fox), GFP KERNEL); 
red fox->tail length = 40; 

red fox-sweight = 6; 

red fox->is fantastic = false; 

INIT LIST HEAMD (&red fox->list); 
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如 采 一 个 结构 在 编译 期 静态 创建 ， 而 你 需要 在 其 中 给 出 一 个 链表 的 直接 引用 ， 下 面 是 最 简 方式 : 
struct fox red fox = { 

:tail length = 40, 

:Weight = 6, 

1]iat = LIST HEAD INITIred fox,1list}), 

}; 

3. 链表 藉 

前 面 我 们 展示 了 如 何 把 一 个 现 有 的 数据 结构 (这 里 是 我 们 的 fox 结构 体 ) 改造 成 链表 。 

简单 修改 上 述 代 码 ， 我 们 的 结构 便 可 以 被 内 核 链表 例 程 管理 。 但 是 在 可 以 使 用 这 些 例 程 前 ， 
需要 一 个 标准 的 索引 指针 指向 整个 链表 ， 即 链表 的 头 指 针 。 

内 核 链 表 实 现 中 最 杰出 的 特性 就 是 : 我 们 的 fox 节点 都 是 无 差别 的 一 一 每 一 个 都 包含 一 个 
list_head 指针 ， 于 是 我 们 可 以 从 任何 一 个 节点 起 遍历 链表 , 直到 我 们 看 到 所 有 节点 。 这 种 方式 确 
实 很 优美 ， 不 过 有 时 确实 也 需要 一 个 特殊 指针 索引 到 整个 链表 ， 而 不 从 一 个 链表 节点 触发 。 有 趣 
的 是 ， 这 个 特殊 的 索引 节点 事实 上 也 就 是 一 个 常规 的 list_head : 


static LIST HERAD{EOX list), 


该 函数 定义 并 初始 化 了 一 个 名 为 fox_list 的 链表 例 程 ， 这 些 例 程 中 的 大 多 数 都 只 接受 一 个 或 
者 两 个 参数 : 头 节 点 或 者 头 市 把 加 上 一 个 特殊 链表 节点 。 下 面 我 们 就 具体 看 看 这 些 操作 例 程 。 


6.1.5 ”操作 链表 


内 核 提供 了 一 组 函数 来 操作 链表 ， 这 些 函 数 都 要 使 用 一 个 或 多 个 list_head 结构 体 指针 作 参 
数 。 因 为 函数 都 是 用 C 语言 以 内 联 函 数 形式 实现 的 ， 所 以 它们 的 原型 在 文件 <linux/list.h> 中 。 

有 趣 的 是 ， 所 有 这 些 函 数 的 复杂 度 都 为 0(1) 虽 。 这 意味 着 ,无论 这 些 函 数 操作 的 链表 大 小 
如 何 ， 无 论 它们 得 到 的 参数 如 何 ， 它 们 都 在 恒定 时 间 内 完成 。 比 如 ， 不 管 是 对 于 包含 3 个 元 素 的 
链表 还 是 对 于 包含 3000 个 元 素 的 链表 ， 从 链表 中 删除 一 项 或 加 入 一 项 花费 的 时 间 都 是 相同 的 。 
这 点 可 能 没什么 让 人 惊奇 的 ， 但 你 最 好 还 是 搞 清 楚 其 中 的 原因 。 

1. 向 链表 中 增加 一 个 节点 

给 链表 增加 一 个 节点 : 


list addl(lstruct list head *new, BStruct list head *head) 

该 函数 向 指定 链表 的 head 市 点 后 插入 new 市 点 。 因 为 链表 是 循环 的 ， 而 且 通 常 没 有 首尾 节 
点 的 概念 ， 所 以 你 可 以 把 任何 一 个 节点 当成 head。 如 果 把 “最 后 ”一 个 节点 当做 head 的 话 ， 那 
么 该 函数 可 以 用 来 实现 一 个 栈 。 

回 到 我 们 的 例子 ， 假 定 我 们 创建 一 个 新 的 struct fox， 并 把 它 加 入 fox_list， 那 么 我 们 这 样 做 : 


list add{&f->list, &fox list); 


日 ”请 看 本 章 6.6 节 ， 其 中 讨论 了 o(1) 算法 。 
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把 节点 增加 到 链表 尾 : 

list add taillstruct list head *new, struct List head *head) 

该 函数 向 指定 链表 的 head 节点 前 插入 new 节点 。 和 1list_add0 函数 类 似 ， 因 为 链表 是 环形 
的 ， 所 以 可 以 把 任何 一 个 布点 当做 head。 如 果 把 “第 一 个 ”元 素 当 做 head 的 话 ， 那 么 该 函数 可 
以 用 来 实现 一 个 队列 。 

2. 从 链表 中 删除 一 个 节点 

在 键 表 中 增加 一 个 布点 后 ， 从 中 删除 一 个 结 点 是 另 一 个 最 重要 的 操作 。 从 链表 中 删除 一 个 结 
点 ， 调 用 list_del() : 


list del (struct list head *entry) 


该 函数 从 链表 中 删除 entry 元 素 。 注 意 ， 该 操作 并 不 会 释放 entry 或 释放 包含 entry 的 数据 结 
构 体 所 占用 的 内 存 ; 该 国 数 仅 仅 是 将 entry 元 素 从 链表 中 移 走 ， 所 以 该 国 数 被 调用 后 ， 通常 还 第 
要 再 撤销 包含 entry 的 数据 结构 体 和 其 中 的 entry 项 。 

例如 ， 为 了 删除 for 节点 ， 我 们 回 到 前 面 增加 节点 的 fox_list ; 


list del (gf->list) 
注意 ， 该 函数 并 没有 接受 fox_list 作为 输入 参数 。 它 只 是 接受 一 个 特定 的 节点 ， 并 修改 其 前 
后 节点 的 指针 ， 这 样 给 定 的 节点 就 从 链表 中 删除 。 代 码 的 实现 颇具 有 启发 性 : 


static inline void list dellstruct list head *prev, struct list head *next) 


next -sprev = Prev; 
Prev->next = Text; 


] 


static inline void list del{struct list head *entry) 


| 
} 
从 链表 中 删除 一 个 节点 并 对 其 重新 初始 化 : 


list del init(): 


_ list del lentry->prev, entry->next); 


list del init(struct list head *entry) 

该 函数 除了 还 需要 再 次 初始 化 entry 以 外 ， 其 他 和 list_del0 函数 类 似 。 这 样 做 是 因为 : 虽然 
链表 不 再 需要 entry 项 ， 但 是 还 可 以 再 次 使 用 包含 entry 的 数据 结构 体 。 

3. 移动 和 合并 链表 节点 

把 节点 从 一 个 链表 移 到 另 一 个 链表 : 

list movel(etruct list head *list, struct list head *head) 

该 函数 从 一 个 链表 中 移 除 list 项 ， 然 后 将 其 加 和 到 另 一 链表 的 head 市 点 后 面 。 

把 市 点 从 一 个 链表 移 到 另 一 个 链表 的 末尾 : 
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list move tail(struct list head *list, struct liest head *head) 


该 函数 和 list_move() 函数 一 样 ， 唯 一 的 不 同 是 将 list 项 插入 到 head 项 前 。 
检查 链表 是 否 为 空 ; 


list empty(struct list head *head) 


如 果 指 定 的 链表 为 空 ， 读 函数 返回 非 0 值 ; 否则 返回 0。 
把 两 个 未 连接 的 链表 合并 在 一 起 : 


list splicetlstruct list head *list,struct list head *head) 


该 函数 合并 两 个 链表 ， 它 将 list 指向 的 链表 插入 到 指定 链表 的 head 元 素 后 面 。 
把 两 个 未 连接 的 链表 合并 在 一 起 ， 并 重新 初始 化 原来 的 链表 : 


list splice init (Sruct list head *]list,struct list head *head) 
该 函数 和 list_splice0 函数 一 样 ， 唯 一 的 不 同 是 由 list 指向 的 链表 要 被 重新 初始 化 。 


”节约 两 次 提 领 (dereference ) 

如 果 你 碰巧 已 经 得 到 了 next 和 prev 指针 ， 你 可 以 直接 调用 内 部 链表 函数 ， 从 而 省 下 一 
”点 时 间 (其 实 就 是 提 领 指针 的 时 间 )。 前 面 讨论 的 所 有 函数 其 实 没 有 做 什么 其 他 特别 的 操作 ， 
. 它 仅 仅 是 找到 next 和 prev 指针 ， 再 去 调用 内 部 函数 而 已 。 内 部 函数 和 它们 的 外 部 包装 函数 
,同名 ， 仅 仅 在 前 面 加 了 两 条 下 划 线 。 比 如 ， 可 以 调用 list_del(prev, next) 函数 代替 调用 list_ 
”del(list) 函数 。 但 这 只 有 在 向 前 和 向 后 指针 确实 已 经 被 提 领 过 的 情况 下 才 有 意义 。 否 则 ， 你 只 
是 在 画蛇添足 。 请 看 文件 <linuwwlisth> 中 具体 的 接口 。 


6.1.6 ”遍历 链表 


现在 ， 你 已 经 知道 了 如 何在 内 核 中 声明 、 初 始 化 和 操作 一 个 链表 。 这 很 了 不 起 ， 但 如 果 无 法 
访问 自己 的 数据 ， 这 些 没有 任何 意义 。 链 表 仅 仅 是 个 能 够 包含 重要 数据 的 容器 ; 我 们 必须 利用 链 
表 移动 并 访问 包含 我 们 数据 的 结构 体 。 幸 好 ， 内 核 为 我 们 提供 了 一 组 非常 棒 的 接口 ， 可 以 用 来 遍 
历 链 表 和 3 引用 链表 中 的 数据 结构 体 。 


注意 ”和 链表 操作 函数 不 同 ， 遍 历 链 表 的 复杂 度 为 O(n)，n 是 链表 所 包含 的 元 素数 目 。 


1. 基本 万 法 

遍历 链表 最 简单 的 方法 是 使 用 list_for_each() 宏 ， 该 宏 使 用 两 个 list_head 类 型 的 参数 ， 第 一 
个 参数 用 来 指向 当前 项 ， 这 是 一 个 你 必须 要 提供 的 临时 变量 ， 第 二 个 参数 是 需要 遍历 的 链表 的 以 
头 节点 形式 存在 的 list_head ( 见 前 面 的 “链表 头 ” 部 分 }。 每 次 凯 历 中 ， 第 一 个 参数 在 链表 中 不 
断 移动 指向 下 一 个 元 素 ， 直 到 链表 中 的 所 有 元 素 都 被 访问 为 止 。 用 法 如 下 : 


struct list head *p; 
list for each(p, list) { 

/wp 指向 链表 中 的 元 素 */ 
} 
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好 了 ， 实 话 实说 , 其 实 一 个 指向 链表 结构 的 指针 通常 是 无 用 的 ; 我 们 所 需要 的 是 一 个 指向 包 
含 list_head 的 结构 体 的 指针 。 比 如 前 面 fox 结构 体 的 例子 ， 我 们 需要 的 是 指向 每 个 fox 的 指针 ， 
而 不 需要 指向 结构 体 中 list 成 员 的 指针 。 我 们 可 以 使 用 前 面 讨论 的 list_entry() 宏 ， 来 获得 包含 给 
定 list_head 的 数据 结构 。 比 如 : 


struct list head *p; 
struct fox #*f£; 


list for eachlp, &fox list) { 
/* f pointe to the atructure in which the list is embedded */ 
f = list entrylp, struct fox, list)}); 
} 
2. 可 用 的 方法 
前 面 的 方法 虽然 确实 展示 了 list_head 节操 的 功效 ， 但 并 不 优美 ， 而 且 也 不 够 灵活 。 所 以 多 
数 内 核 代码 采用 list_for_each_entry() 宏 遍 历 链表 。 该 宏 内 部 也 使 用 list_entry0 宏 ， 但 简化 了 遍历 
过 程 : 


list for each entrylpos, head, member) 


这 里 pos 是 一 个 指 同 包含 list_head 布点 对 象 的 指针 ， 可 将 它 看 做 是 list_entry 宏 的 返回 值 。 
head 是 一 个 指 癌 头 节点 的 指针 ， 即 遍历 开始 位 置 一 一 在 我 们 前 面 例子 中 ，fox_list.member 是 pos 
中 list_head 结构 的 变量 名 。 这 听 起 来 令 人 迷惑 ， 但 是 简单 实用 。 下 面 的 代码 片断 展示 了 如 何 重 
写 前 面 的 list_for eachO， 来 遍历 所 有 fox 节点 : 


struct fox *f; 


list for each entry{lf, &fox list, list) | 

/* on each iteration, ‘f’' points to the next fox structure 。。。 */ 
} 
现在 看 看 实际 例子 吧 。 它 来 自 inotify 一 一 内 核 文件 系统 的 更 新 通知 机 制 : 
static struct inotify watch *inode find handle (struct inode *inode, 


struct inotify handle #*#ih)} 


{ 


struct inotify watch *watch; 
list for each entryl(watch, &inode->inotify watchee, i list) |{ 


if (wateh=»sih == ih) 
return watch; 


return NMULL; 


] 
该 国 数 遍 历 了 inode->inotify_watches 链表 中 的 所 有 项 ， 每 个 项 的 类 型 都 是 struct inotify_ 
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watch，list_head 在 结构 中 被 命名 为 list。 循环 中 的 每 一 个 遍历 ，watch 都 指向 链表 的 新 节点 。 
该 函数 的 目的 在 于 : 在 inode 结构 串联 起 来 的 inotify _ watches 链表 中 ， 搜 寻 其 inotify handle 与 
所 提供 的 句柄 相 匹配 的 inotify_ watch 项 。 

3, 反 向 遍历 链表 

宏 list for each_entry_reverse() 的 工作 和 1list_ for each_ entry0 类 似 ， 不 同 点 在 于 它 是 反 向 遍 
历 链表 的 。 也 就 是 说 ， 不 再 是 沿 着 next 指针 向 前 遍历 ， 而 是 洛 着 prev 指针 间 后 遍历 。 其 用 法 和 
list for each_entry() 相同 : 


list for each entry reverse{pos, head, member) 


很 多 原因 会 需要 反 向 跟 历 链表 。 其 中 一 个 是 性 能 原因 一 一 如 果 你 知道 你 要 寻找 的 布点 最 可 能 
在 你 搜索 的 起 始点 的 前 面 ， 那 么 反 向 搜索 岂 不 更 快 。 第 二 个 原因 是 如 果 顺 序 很 重要 ， 比 如 ， 如 果 
你 使 用 链表 实现 堆栈 ， 那 么 你 需要 从 尾部 向 前 遍历 才能 达到 先进 / 先 出 〈LIEO) 原则 。 如 果 你 没 
有 确切 的 反 向 遍历 的 原因 ， 就 老实 点 ， 用 list_for_each_entry() 宏 吧 。 

4. 遍历 的 同时 删除 

标准 的 链表 遍历 方法 在 你 遍历 链表 的 同时 要 想 删 除 节 点 时 是 不 行 的 。 因 为 标准 的 链表 方法 建 
立 在 你 的 操作 不 会 改变 链表 项 这 一 假设 上 ， 所 以 如 果 当 前 项 在 遍历 循环 中 被 删除 ， 那 么 接 下 来 的 
遍历 就 无 法 获得 next( 或 prev) 指针 了 。 这 其 实 是 循环 处 理 中 的 一 个 常见 范式 ， 开 发 人 员 通 过 在 
潜在 的 删除 操作 之 前 存储 next( 或 者 previous) 指针 到 一 个 临时 变量 中 ， 以 便 能 执行 删除 操作 。 好 
在 Linux 内 核 提 供 了 例 程 处 理 这 种 情况 : 

list for each entry safel(pos, next, head, member) 

你 可 以 按照 list_for_each_entry() 宏 的 方式 使 用 上 述 例 程 ， 只 是 需要 提供 next 指针 ，next 指 
针 和 pos 是 同样 的 类 型 。list_for_each_entry_safe() 启用 next 指针 来 将 下 一 项 存 进 表 中 ， 以 使 得 能 
安全 删除 当前 项 。 我 们 再 次 看 看 inotify 的 例子 : 





void inotirfy inode is deadlstruct inode *1inodel} 


| 


struct inotify watceh *watch, *next,) 


mutex lock{(&inode->inotify mtex); 
Liet for each entry safe(watch, next, &inode->inotify watches, 1 liest) 人 
atruct inotify handle *ih = watch->ih; 
mutex lock [gih->»>mutex); 
inotify remove Watch locked(ih, watch); /* deletes watch */ 
‘mutex unlock (gih->mtex); 
} 
mtex unlock(&inode->inotify mutex); 


j 


该 函数 遍历 并 删除 inotify watches 链表 中 的 所 有 项 。 如 果 使 用 了 标 肉 的 List_ for each_ 
entry 中 ， 那 么 上 述 代 码 会 造成 “使 用 一 在 一 释放 后 ”的 错误 ， 因 为 在 移 向 链表 中 下 一 项 上 时， 需要 
访问 watch， 但 这 时 它 已 经 被 撤销 。 
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如 果 你 需要 在 反 同 帝 历 链表 的 同时 删除 它 ， 那 么 内 核 提供 了 list_for each entry_safe_reverse() 
宏 帮 你 完成 此 任务 : 


list for each entry safe reverse{lpos, n, head, member) 


上 述 函 数 的 用 共同 list for each entry safe()。 


你 仍然 需要 锁定 ! 
list_for_each_entry() 的 安全 版 本 只 能 保护 你 在 循环 体 中 从 链表 中 删除 数据 。 如 果 这 时 有 
可 能 从 其 他 地 方 并 发 进行 删除 ， 或 者 有 任何 其 他 并 发 的 链表 操作 ， 你 就 需要 锁定 链表 。 
请 见 第 9 章 和 第 10 章 中 对 同步 和 锁 的 讨论 。 


5. 其 他 链表 方法 
Linux 提供 了 很 多 链表 操作 方法 一 一 几乎 是 你 所 能 想到 的 所 有 访问 和 操作 链表 方法 ， 所 有 这 
些 方法 都 可 在 头 文件 <linuw/list.h> 中 找到 。 


6.2 队列 


任何 操作 系统 内 核 都 少不了 一 种 编程 模型 : 生产 者 和 消费 者 。 在 该 模式 中 ， 生 产 者 创造 数据 
(比如 说 需要 读 取 的 错误 信息 或 者 需要 处 理 的 网 络 包 )， 而 消费 者 则 反 过 来 ， 读 取消 息 和 处 理 包 ， 
或 者 以 其 他 方式 消费 这 些 数据 。 实 现 该 模型 的 最 简单 的 方式 无 非 是 使 用 队列 。 生 产 者 将 数据 推进 
队列 ， 然 后 消费 者 从 队列 中 摘 取 数 据 。 消 费 者 著 取 数据 的 顺序 和 推 入 队列 的 顺序 一 致 。 也 就 是 
说 ， 第 一 个 进入 队列 的 数据 一 定 是 第 一 个 离开 队列 的 。 也 正 是 这 个 原因 ， 队 列 也 称 为 FIFO。 顾 
名 思 义 ，EFIFO 就 是 先进 先 出 的 缩写 。 图 6-5 是 一 个 标准 队列 的 例子 。 


了 


图 6-5 队列 (FIFO) 


Linux 内 核 通用 队列 实现 称 为 kifo。 它 实现 在 文件 kermmel/kfifo.c 中， 声明 在 文件 <linux/ 
kfifo.h> 中 。 本 节 讨 论 的 是 自 2.6.33 以 后 刚 更 新 的 API， 使 用 方法 和 2.6.33 前 的 内 核 稍 有 不 同 ， 
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所 以 在 使 用 前 请 仔细 检查 文件 <linux/kfifo h>。 
6.2.1 kfifo 


Linux 的 kfifo 和 多 数 其 他 队列 实现 类 似 ， 提 供 了 两 个 主要 操作 : enqueue (入 队列 ) 和 
dequeue 〈 出 队列 )。kfifo 对 象 维护 了 两 个 偏 移 量 : 人 口 偏 移 和 出 口 念 移 。 人 口 偏 移 是 指 下 一 次 人 
队列 时 的 位 置 ， 出 口 偏 移 是 指 下 一 次 出 队列 时 的 位 置 。 出 口 偏 移 总 是 小 于 等 于 人 人口 偏 黎 ， 否 则 无 
意义 ， 因 为 那样 说 明 要 出 队列 的 元 素 根本 还 没有 入 队列 。 

enqueue 操作 拷贝 数据 到 队列 中 的 人 口 偏 移 位 置 。 当 上 述 动作 完成 后 ， 人 口 偏 移 随 之 加 上 推 
入 的 元 素数 目 。dequeue 操作 从 队列 中 出 口 偏 移 处 拷贝 数据 ， 当 上 述 动作 完成 后 ， 出 口 偏 移 随 之 
减 去 摘 取 的 元 素数 目 。 当 出 口 偏 移 等 于 入口 偏 移 时 ， 说 明 队 列 空 了 : 在 新 数据 被 推 人 前 ， 不 可 再 
摘 取 任 何 数据 了 。 当 人 口 偏 移 等 于 队列 长 度 时 ， 说 明 在 队列 重 置 前 ， 不 可 再 有 新 数据 推 人 队列 。 


6.2.2 ”创建 队列 


使 用 kfifo 前 ， 首 先 必 须 对 它 进行 定义 和 初始 化 。 和 多 数 内 核对 象 一 样 ， 有 动态 或 者 静态 方 
法 供 你 选择 。 动 态 方 法 更 为 普遍 : 


int kfifo allocl(lstruct kfifo *fifo, unsigned int size, gfp 七 gfp mask); 


读 函 数 创建 并 且 初 始 化 一 个 大 小 为 size 的 kfifo。 内 核 使 用 gfp_mask 标识 分 配 队 列 (我 们 在 
第 12 章 会 详细 讨论 内 存 分 配 )。 如 果 成 功 kfifo_alloc() 返回 0 ; 错误 则 返回 一 个 负数 错误 码 。 下 
面 便 是 一 个 例子 : 


struct kfifo fifo; 

int retsy 

ret = kfifo alloc (lg&kifo, PAGE SIZE, GFP KERNEL); 
if (ret) 


return ret; 


/ws "fifo" 现在 代表 一 个 大 小 为 PAGE_SIZEB 的 队列 … */ 
你 要 想 自 己 分 配 缓冲 ， 可 以 调用 : 
void kfifo initlstruct ktifo *fifo, void *buffer, unsigned int size),; 


该 函数 创建 并 初始 化 一 个 kfifo 对 象 ， 它 将 使 用 由 buffer 指向 的 size 字 节 大 小 的 内 存 。 对 于 
kfifo alloc0) 和 khfo init(y，size 必须 是 2 的 和 时。 
静态 声明 lfifo 更 简单 ， 但 不 大 党 用 : 


DECLARE KFIFO (name, Size); 
INIT KFIFO (name) ; 


上 述 方 法 会 创建 一 个 名 称 为 name、 大 小 为 size 的 kfifo 对 象 。 和 前 面 一 样 , size 必须 是 2 的 吞 。 
6.2.3 ” 推 入 队列 数据 
当 你 的 kfhifo 对 象 创建 和 初始 化 后 ， 推 人 数据 到 队列 需要 通过 kfifo_in( 方法 完成 : 
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unsigned int kfifo intstruct kififo *fifo, const void *from, unsigned int len); 


该 函数 把 from 指针 所 指 的 len 字 刷 数据 拷贝 到 fifo 所 指 的 队列 中 ， 如 果 成 功 ， 则 返回 推 人 
数据 的 字 王 大 小 。 如 果 队 列 中 的 空闲 字 市 小 于 len， 则 该 函数 值 最 多 可 拷贝 队列 可 用 空间 那么 多 
的 数据 ， 这 样 的 话 ， 返 回 值 可 能 小 于 len， 甚 至 会 返回 0， 这 时 意味 着 设 有 任何 数据 被 推 人 。 


6.2.4 摘 取 队列 数据 
推 人 数据 使 用 函数 kfifo_in0， 搞 取 数 据 则 需要 通过 函数 kfifo_out() 完成 : 


unsigned int kfifo out (struct kfifo *fifo, void *to，uUunsiogned int len); 


该 函数 从 fifo 所 指向 的 队列 中 拷贝 出 长 度 为 len 字 节 的 数据 到 to 所 指 的 缓 训 中 。 如 果 成 功 ， 
该 函数 则 返回 找 贝 的 数据 长 度 。 如 果 队 列 中 数据 大 小 小 于 len , 则 读 函 数 拷贝 出 的 数据 必然 小 于 
需要 的 数据 大 小 。 

当 数 据 被 摘 取 后 ， 数 据 就 不 再 存在 于 队列 之 中 。 这 是 队列 操作 的 常用 方式 。 不 过 如 果 仅 仅 想 
“ 偷 帘 ” 队 列 中 的 数据 ， 而 不 真 想 删 除 它 ， 你 可 以 使 用 kfifo_out_peek0 方法 : 


unsigned int kfifo out peeklstruct kfifo *fifo, void *to, unsigned int len, 
unaigned offset)} 


该 函数 和 kfifo_out() 类 似 ， 但 出 口 偏 移 不 增加 ， 而 且 摘 取 的 数据 仍然 可 被 下 次 kfifo_out 获 
得 。 参 数 offset 指 问 队列 中 的 索引 位 置 ， 如 果 该 参数 为 0， 则 读 队 列 头 ， 这 和 kfifo_out0 无 异 。 


6.2.5 ”获取 队列 长 度 
若 想 获 得 用 于 存储 kfifo 队列 的 空间 的 总 体 大 小 〈 以 字 节 为 单位 )， 可 调用 方法 kfifo_size() : 


static inline unsigned int kfifo sizelstruct kfifo *fifo); 


另 一 个 内 核 命名 不 佳 的 例子 来 了 一 一 kfifo_len() 方法 返回 kfifo 队列 中 已 推 人 的 数据 大 小 : 


static inline unsigned int kfifo lenlstruct kfifo *fifo); 


如 采 想 得 到 kfifo 队列 中 还 有 多 少 可 用 空间 ， 则 要 调用 方法 : 


static inline unsigned int kfifo avail (lstruct ktifto *fifo); 


最 后 两 个 方法 是 kfifo is empty0 和 kfifo is fliO0。 如 果 给 定 的 lthifo 分 别 是 空 或 者 满 ， 它 们 
返回 非 0 值 。 如 果 返 回 0， 则 相反 。 


static inline int kfifo is emptyl(struct kfifo *fifo); 
static inline int kfifo is fulllstruct kfifo *fifo).; 


6.2.6 重 置 和 撤销 队列 
如 果 重 置 kifo， 意 味 着 抛弃 所 有 队列 中 的 内 容 ， 调 用 kfifo_reset( : 


static inline void kfifo reset {struct kfifo *fifo); 


撤销 一 个 使 用 kfifo_alloc0 分 配 的 队列 ， 调 用 kfifo_free() : 
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void kfifo free(lstruct kfifo *fifo),; 


如 果 你 是 使 用 kfifo init( 方法 创建 的 队列 ， 那 么 你 需要 负责 有 释放 相关 的 缓冲 。 具 体 方法 取决 
于 你 是 如 何 创 建 它 的 。 去 看 看 第 12 章 关于 动态 分 配 和 释放 内 存 的 讨论 吧 。 


6.2.7 队列 使 用 举例 


使 用 上 述 接口 ， 我 们 看 一 个 kfifo 的 具体 用 例 。 假 定 我 们 创建 了 一 个 由 fifo 指向 的 8KB 大 小 
的 kfifo。 我 们 就 可 以 推 入 数据 到 队列 。 这 个 例子 中 ， 我 们 推 入 简单 的 整 型 数 。 在 你 自己 的 代码 
中 ， 可 以 推 入 更 复杂 的 任务 相关 数据 。 这 里 使 用 整数 ， 我 们 看 看 kfifo 如 何 工 作 : 


unsigned int i; 


/* 将 [0,32) 压 人 到 名 为 'fifo' 的 Kifo 中 */ 
for {i = 0; i < 32; i++) 
kfifo in(fifo, &i; sizeof (i)),; 


名 为 fifo 的 kfifo 现在 包含 了 0 到 31 的 整数 ， 我 们 查看 一 下 队列 的 第 一 个 元 素 是 不 是 0 : 


unsigqned int wal:; 
int ret; 


ret = kfifo out peek {fifo, &val, sizeof (val), 0); 
if (ret != sizeof (val)) 

return -EINVAL:; 
printk (KERN _ INFO "uvnn，val)i /* 应 该 输出 0 */ 


摘 取 并 打印 kfifo 中 的 所 有 元 素 ， 我 们 可 以 调用 kfifo_out() : 


/* 当 队 列 中 还 有 数据 时 */ 

while (kfifo avail (fifo)} { 
unsigned int val; 
int ret,; 


i/* ... read it, one integer at a time */ 
ret = kfifo out (fifo, &val, sizeof (val)}; 
if {ret != sizeof (val)) 

return -EINVAL: 


printk (KERN_INFO "%u\n", val); 


} 


0 到 31 的 整数 将 一 一 按 序 打 印 出 来 如果 需 要 逆序 打印 ， 即 从 31 到 0， 那 么 我 们 应 该 使 用 
堆栈 而 不 是 队列 )。 


6.3 映射 


一 个 映射 ， 也 常 称 为 关联 数组 ， 其 实 是 一 个 由 唯一 键 组 成 的 集合 ， 而 每 个 键 必然 关联 一 个 特 
定 的 值 。 这 种 键 到 值 的 关联 关系 称 为 映射 。 上 映射 要 至 少 支持 三 个 操作 : 
* Add (key, value) 


* Remove (key) 
# value = Lookup (key) 
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虽然 人 敢 列 表 是 一 种 映射 ， 但 并 非 所 有 的 映射 都 需要 通过 和 散 列 表 实 现 。 除 了 使 用 散 列 表 外 ， 映 
射 也 可 以 通过 自 平衡 二 又 搜索 树 存 储 数据 。 虽 然 散 列 表 能 提供 更 好 的 平均 的 渐 近 复杂 度 〈 请 看 本 
章 后 面 关 于 算法 复杂 度 的 讨论 )， 但 是 二 叉 搜 索 树 在 最 坏 情 况 下 能 有 更 好 的 表现 〈 即 对 数 复杂 
性 相 比 线性 复杂 性 )。 二 叉 搜 索 树 同时 满足 顺序 保证 ， 这 将 给 用 户 的 按 序 遍 历 带 来 很 好 的 性 能 。 
二 又 搜 索 树 的 最 后 一 个 优势 是 它 不 需要 散 列 函数 ， 需 要 的 键 类 型 只 要 可 以 定义 <= 操作 算 子 便 
可 以 。 

虽然 键 到 值 的 映射 属于 一 个 通用 说 法 ， 但 是 更 多 时 候 特 指使 用 二 叉 树 而 非 散 列表 实现 的 关联 
数组 。 比 如 ，C++ 的 STL 容器 std::map 便 是 采用 自 平 衡 二 叉 搜 索 树 (或 者 类 似 的 数据 结构 〉 实 
现 的 ， 它 能 提供 按 序 遍 历 的 能 力 。 

Linux 内 核 提供 了 简单 、 有 效 的 映射 数据 结构 。 但 是 它 并 非 一 个 通用 的 映射 。 因 为 它 的 目标 
是 : 映射 一 个 唯一 的 标识 数 (UID) 到 一 个 指针 。 除 了 提供 三 个 标准 的 映射 操作 外 ，Linux 还 在 
add 操作 基础 上 实现 了 allocate 操作 。 这 个 allocate 操作 不 但 向 map 中 加 人 了 键 值 对 ， 而 且 还 可 
产生 UID，。 

idr 数据 结构 用 于 映射 用 尸 空 间 的 UID， 比 如 将 inodify watch 的 描述 符 或 者 POSIX 的 定时 器 
ID 映射 到 内 楼 中 相关 联 的 数据 结构 上 ， 如 inotify watch 或 者 k itimer 结构 体 。 其 命名 仍然 沿 效 
了 内 核 中 有 些 含混 不 清 的 命名 体系 ， 这 个 映射 被 命名 为 idr。 


6.3.1 初始 化 一 个 idr 


建立 一 个 idr 很 简单 ， 首 先 你 需要 静态 定义 或 者 动态 分 配 一 个 idr 数据 结构 。 然 后 调用 idr_ 
init() : 

void idr initt{struct idr *idp}; 

比如 : 


struct idr id huh; /* 静态 定 多 idr 结构 */ 
iar init(&id huh); /* 初始 化 idr 结构 */ 


6.3.2 分配 一 个 新 的 UID 


一 旦 建立 了 idr， 就 可 以 分 配 新 的 UID 了 ， 这 个 过 程 分 两 步 完成 。 第 一 步 ， 告 诉 idr 你 需要 
分 配 新 的 UID， 人 允许 其 在 必要 时 调整 后 备 树 的 大 小 。 然 后 ， 第 二 步 才 是 真正 请 求 新 的 UID。 之 
所 以 需要 这 两 个 组 合 动作 是 因为 要 允许 调整 初始 大 小 一 一 这 中 辐 寂 及 在 无 锁 情 况 下 分 配 内 存 的 场 
景 。 我 们 在 第 12 章 将 讨论 内 存 分 配 ， 在 第 9 章 和 第 10 章 讨论 加 锁 问 题 。 现 在 我 们 先 别 管 如 何 处 
理 上 锁 问 题 ， 重 点 看 看 如 何 使 用 idr。 

第 一 个 调整 后 备 树 大 小 的 方法 是 idr_pre_getQ : 


int idr Pre get (struct idr *idp, gfp 七 9tp_ mask):; 


该 函数 将 在 需要 时 进行 UID 的 分 配 工作 : 调整 由 idp 指向 的 idr 的 大 小 。 如 果真 的 需要 调整 
大 小 ， 则 内 存 分 配 例 程 使 用 gfp 标识 : gfp_mask (gfp 标识 将 在 第 12 章 讨 论 )， 你 不 需要 对 并 发 
访问 该 方 半 进行 同步 保护 。 和 内 核 中 其 他 函数 的 做 法 相反 ，idr_pre_getQ 成 功 时 返回 1, 失败 时 返 
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回 0 一 一 这 点 一 定 要 注意 。 
第 二 个 函数 ， 实 际 执行 获取 新 的 UID， 并 且 将 其 加 到 idr 的 方法 是 idr_get_new0 : 


int idr get new(struct idr *idp, voiqd *ptr, int *id); 


该 方法 使 用 idp 所 指向 的 idr 去 分 配 一 个 新 的 UID， 并 且 将 其 关联 到 指针 ptr 上。 成功 时 ， 
该 方法 返回 0， 并 且 将 新 的 UID 存 于 id。 错 误 时 ， 返 回 非 0 的 错误 码 ， 错 误 码 是 -EAGAIN, 说 
明 你 需要 (再 次 ) 调用 idr pre_getO ; 如 果 idr 已 满 ， 错 误 码 是 -ENOSPC。 

看 一 个 完整 例子 吧 ; 


int id:; 


do | 
if (1idr pre get {&idr huh, GFP KERNEL)) 
return -ENOSPC; 
ret = idr get newlE&idr huh, ptr, &id),; 
} while (ret == -EAGAIN); 


如 果 成 功 ， 上 述 代 码 片段 将 获得 一 个 新 的 UID， 它 被 存储 在 整 型 变量 i 计 中 ， 而 且 将 UID 映 
射 到 ptr 我 们 没有 在 代码 片段 中 定义 它 ) 
函数 idr_get_new_above() 使 得 调用 者 可 指定 一 个 最 小 的 UID 返回 值 : 


int idr get new abovelstruct idr *idp, void *ptr, int starting id, int *1id); 


该 函数 的 作用 和 idr_get_new() 相同 ， 除 了 它 确 保 新 的 UID 大 于 或 等 于 starting_id 外 。 使 用 
这 个 变种 方法 允许 idr 的 使 用 者 确保 UID 不 会 被 重用 ， 人 允许 其 值 不 但 在 当前 分 配 的 ID 中 唯一 ， 
而 且 还 保证 在 系统 的 整个 运行 期 间 唯一 。 下 面 的 代码 片段 和 前 例 中 的 类 似 ， 不 过 我 们 明确 要 求 增 
可 UID 的 值 : 


int id; 


do | 
if {!idr pre get {gidr huh, GFP KERNEL)) 
return -ENOSPC,; 
ret = idr get new above (lg&idr huh, ptr, next id, g&id):; 
} while (ret == -EAGAIN), 


if (tlret) 


next id = id + 1; 


6.3.3 查找 UID 


当 我 们 在 一 个 ir 中 已 经 分 配 了 一 些 UID 时 ， 我 们 自然 就 需要 查找 它们 : 调用 者 要 给 出 
UID，idr 将 返回 对 应 的 指针 。 查 找 步 骤 显 然 要 比分 配 一 个 新 UID 要 来 的 简单 ， 仅 需 使 用 idr_ 
find() 方法 即 可 : 


84 蓝 6 全 


void *idr find(struct idr *idp, int 并 al) ; 


该 函数 如 有 调用 成 功 ， 则 返回 id 关联 的 指针 ; 如 果 错 误 ， 则 返回 空 指针 。 注 意 ， 如 果 你 使 
用 idr_get_ new() 或 者 idr_get_ new_above0 将 空 指针 映射 给 UID， 那 么 该 函数 在 成 功 时 也 返回 
NULL。 这 样 你 就 无 法 区 分 是 成 功 还 是 失败 ， 所 以 ， 最 好 不 要 将 UID 映射 到 空 指针 上 。 

这 个 函数 的 使 用 比较 简单 : 


struct my struct *ptr = idr find(&gidr huh, id),; 
if (1!ptr) 
return -EINVAL; /* 错误 */ 


6.3.4 ”删除 UID 
从 idr 中 删除 UID 使 用 方法 idr remove() : 


void idr remove (lstruct idr *idp,int id); 


如 果 idr_remove() 成 功 ， 则 将 记 关 联 的 指针 一 起 从 映射 中 删除 。 和 遗憾 的 是 ，idr_remove0 并 
没有 办 法 提示 任何 错误 〈 比 如 ， 如 果 记 不 在 idp 中 )。 


6.3.5 ”撤销 idr 
撤销 一 个 idr 的 操作 很 简单 ， 调 用 idr_destroyQ 函数 即 可 : 


void idr destroy(struct idr *idp); 


如 果 该 方法 成 功 ， 则 只 释放 idr 中 未 使 用 的 内 存 。 它 并 不 释放 当前 分 配给 UID 使 用 的 任何 内 
存 。 通 常 ， 内 核 代码 不 会 撤销 idr， 除 非 关闭 或 者 印 载 ， 而 且 只 有 在 设 有 其 他 用 户 《〈 也 就 没有 更 
多 的 UID) 时 才能 删除 ， 但 是 你 可 以 调用 idr_remove all( 方法 强制 删除 所 有 的 UID : 


void idr remove alltlstruct idr *idp); 


你 应 该 首先 对 idp 指向 的 idr 调用 idr_remove all0， 然 后 再 调用 idr_destroy()， 这 样 就 能 使 
idr 占用 的 内 存 都 被 释放 。 


6.4 二 又 树 


树 结 构 是 一 个 能 提供 分 层 的 树 型 数据 结构 的 特定 数据 结 
构 。 在 数学 意义 上 ， 树 是 一 个 无 环 的 、 连 接 的 有 问 图 ， 其 中 
任何 一 个 项 后 (在 树 里 则 节点 ) 具有 0 个 或 者 多 个 出 边 以 及 
0 个 或 者 1 个 人 边 。 一 个 二 叉 树 是 每 个 市 点 最 多 只 有 两 个 出 
边 的 树 一 一 也 就 是 ， 一 个 树 ， 其 节点 具有 0 个 、1 个 或 者 2 个 
子 节 点 。 请 见 图 6-6 所 示 的 简单 二 叉 树 。 


6.4.1 二 叉 搜 索 树 
一 个 二 叉 搜 索 树 (通常 简称 为 BST) 是 一 个 节点 有 序 的 
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二 叉 树 ， 其 顺序 通常 遵循 下 列 法 则 : 

" 根 的 左 分 支 ; 所 值 都 小 于 根 习 点 值 。 

“ 右 分 支 节点 值 都 大 于 根 节 点 值 。 

“所 有 的 子 树 也 都 是 二 叉 搜 索 树 。 

因此 ， 一 个 二 叉 搜 索 树 所 有 节点 必然 都 有 序 ， 且 左 子 节 点 小 于 其 父 刷 点 值 ， 而 右 子 节 点 大 于 
其 父 刷 点 值 的 二 叉 树 。 所 以 ， 在 树 中 搜索 一 个 给 定 值 或 者 按 序 过 有 历 树 都 相当 快捷 〈 算 法 分 别 是 对 
数 和 线性 的 )。 见 图 6-7 给 出 的 简单 二 叉 搜 索 树 。 


6.4.2 自 平 衡 二 叉 搜 索 树 


一 个 节 扣 的 深度 是 指 从 其 根 市 点 起 ， 到 达 它 一 共 需 经 过 的 父 市 扩 数 目 。 处 于 树 底 层 的 节点 
(再 也 设 有 子 节 点 ) 称 为 叶子 节点 。 一 个 树 的 高 度 是 指 树 中 的 处 于 最 底层 节点 的 深度 。 一 个 平衡 
二 叉 搜 索 树 是 一 个 所 有 叶子 节点 深度 差 不 超 过 1 的 二 又 搜 索 树 〈 见 图 6-8)。 一 个 自 平衡 二 又 搜索 
树 是 指 其 操作 都 试图 维持 ( 半 ) 平衡 的 二 又 搜索 树 。 





图 6-7 二 又 搜 索 树 (BST) 图 6-8 平衡 二 叉 搜 索 树 


1. 红 累 树 

红 黑 树 是 一 种 自 平 衡 二 叉 搜 索 树 。Linux 主要 的 平衡 二 又 树 数据 结构 就 是 红 黑 树 。 红 黑 树 具 
有 特殊 的 着 色 属 性 ， 或 红色 或 黑色 。 红 黑 树 因 遵 循 下 面 六 个 属性 ， 所 以 能 维持 半 平 衡 结 构 : 

(1) 所 有 的 节点 要 么 着 红色 ， 要 么 着 黑色 。 

(2) 叶子 万 扩 都 是 黑色 。 

(3) 叶子 节点 不 包含 数据 。 

(4) 所 有 非 叶子 节点 都 有 两 个 子 节点 。 

(5) 如 果 一 个 节点 是 红色 ， 则 它 的 子 节 点 都 是 黑色 。 

《6) 在 一 个 节点 到 其 叶子 节点 的 路 径 中 ， 如 果 总 是 包含 同样 数目 的 黑色 节点 ， 则 该 路 径 相 
比 其 他 路 径 是 最 短 的 。 

上 述 条 件 ， 保 证 了 最 深 的 叶子 节点 的 次 度 不 会 大 于 两 倍 的 最 张 叶子 节点 的 深度 。 所 以 ， 红 晨 
树 总 是 半 平 衡 的 。 为 什么 它 具 有 如 此 神奇 的 特点 呢 ? 首先 ， 第 五 个 属性 ， 一 个 红色 节点 不 能 是 其 
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他 红色 节点 的 子 节点 或 者 父 节 点 。 而 第 六 个 属性 保证 了 ， 从 树 的 任何 节点 到 其 叶子 节点 的 路 径 都 
具有 相同 数目 的 黑色 节点 ， 树 里 的 最 长 路 径 则 是 红 黑 交替 节点 路 径 ， 所 以 最 短路 径 必 然 是 具有 相 
同 数量 黑色 节点 的 一 一 只 包含 黑色 节点 的 路 径 。 于 是 从 根 节点 到 叶子 节点 的 的 最 长 路 径 不 会 超过 
最 短路 径 的 两 倍 。 

如 果 插 人 和 删除 操作 可 以 遵循 上 述 六 个 要 求 ， 那 这 个 树 会 始终 保持 是 一 个 半 和 平衡 树 。 看 起 来 
也 许 有 些 奇 怪 ， 为 什么 插入 和 删除 动作 都 需要 服从 这 些 特别 的 约束 ， 为 什么 不 能 用 一 些 简 单 的 规 
则 去 维持 平衡 树 呢 ?了 其实， 实践 证 明 这 些 规 则 遵循 起 来 还 是 相对 简单 (虽然 实现 复杂 ) 的 。 而 且 
在 保证 半 平 衡 树 前 提 下 ， 这 些 插入 和 删除 动作 并 不 会 增加 额外 负担 。 

至 于 如 何 让 插入 和 删除 动作 都 能 遵循 这 些 规 则 ， 已 经 超出 了 本 书 范围 。 相 比 简单 的 规则 ， 实 
现 起 来 可 要 复杂 得 多 。 不 过 任何 好 点 的 大 学 数据 结构 教科 书 上 都 应 该 有 完整 的 讲述 。 

2. rbtree 

Linux 实现 的 红 黑 树 称 为 rbtree。 其 定义 在 文件 lib/rbtree.c 中 ， 声 明 在 文件 <linux/rbtree.h> 
中 。 除 了 一 定 的 优化 外 ，Linux 的 rbtree 类 似 于 前 面 所 描述 的 经 典 红 黑 树 ， 即 保持 了 平衡 性 ， 所 
以 插入 效率 和 树 中 节点 数目 呈 对 数 关系 。 

rbtree 的 根 节点 由 数据 结构 tb_root 描述 。 创 建 一 个 红 黑 树 ， 我 们 要 分 配 一 个 新 的 rb_root 结 
构 ， 并 且 需 要 初始 化 为 特殊 值 RB_ROOT : 


struct rb root root = RB ROOT; 


树 里 的 其 他 节点 由 结构 rb_node 描述 。 给 定 一 个 由 node， 我 们 可 以 通过 跟踪 同名 节点 指针 
来 找到 它 的 左右 子 节点 。 

rbtree 的 实现 并 没有 提供 搜索 和 插入 例 程 ， 这 些 例 程 希望 由 rbtree 的 用 户 自己 定义 。 这 是 因 
为 C 语言 不 大 容易 进行 泛 型 编程 ， 同 时 Linux 内 核 开发 者 们 相信 和 最 有 效 的 搜索 和 插入 方法 需要 每 
个 用 户 自己 去 实现 。 你 可 以 使 用 rbtree 提供 的 辅助 函数 ， 但 你 自己 要 实现 比较 操作 算 子 。 

搜索 操作 和 插入 操作 最 好 的 范例 就 是 展示 一 个 实际 场景 : 我 们 先 来 看 搜索 ， 下 面 的 函数 实现 
了 在 页 高 速 组 存 中 搜索 一 个 文件 区 (由 一 个 i 节点 和 一 个 偏 移 量 共同 描述 )。 每 个 i 节点 都 有 自己 
的 rbtree， 以 关联 在 文件 中 的 页 偏 称 。 该 函数 将 搜索 给 定 i 节点 的 tbtree， 以 寻找 匹配 的 偏 移 值 : 


struct Page * rb Search page cache(lstruct inode *inode, 
unsigned long offset) 


| 


BtIUCt rb node *n = inode->1 rb page cache.rb node; 


while {n) | 
atruct page *page = rb entryln, struct page, rb page Cachel) : 
if (offset < page->offset) 
n = Nn->rb left, 
else if (offset » page->offset) 
n = n->rb right; 
else 
return page; 


return NULL:; 
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这 个 例子 中 ， 在 while 循环 中 遍历 了 整个 rbtree。offset 将 决定 是 向 左 或 是 向 右 遍 历 。 计 和 
else 条 件 实际 上 实现 了 rbtree 的 比较 方法 ， 从 而 确保 了 树 的 有 序 性 。 如 果 循 环 中 找到 了 一 个 匹配 
offset 的 节点 ， 则 搜索 完成 ， 并 返回 对 应 的 page 结构 。 如 果 循 环 查 找 了 全 树 也 没有 找到 一 个 匹配 
项 ,说明 在 树 中 不 存在 匹配 项 ， 则 了 销 数 返回 NULL。 

插入 操作 要 相对 复杂 一 些 ， 因 为 必须 实现 搜索 和 插入 逻辑 。 下 面 并 非 一 个 了 不 起 的 函数 ， 但 
可 以 作为 你 实现 自己 的 插入 操作 的 一 个 指导 : 

struct page * rb insert page cachelstruct inode *inode, 


unsigned long offset, 
struct rb node *node) 


Struct rb node **p = &inode-»>i rb page cache.rb node,; 
atruct rb node *parent = NULL; 
struct page *page; 


while {*p) { 
parent = *p; 
page = rb entry lparent, struct page, rb page cache); 


if (offset «< page->offset) 

p= &E(*p)-=->rb left,; 
else if (offset > page->0ffset) 

p= &{*p}->rb right; 
else 

return page; 


} 


rb link nodelnode, parent, p); 
rb insert color (node, &inode->i rb page cache); 


return NULL; 
| 
和 搜索 操作 一 样 ，while 循环 需要 遍历 整个 树 ， 也 是 根据 offset 选择 过 历 方向 。 但 是 和 搜索 
不 同 的 是 ， 该 函数 希望 找 不 到 匹配 的 offset， 因 为 它 想 要 找 的 是 新 offset 要 播 人 的 叶子 节点 。 妆 
插 人 点 找到 后 ， 调 用 rb_link_node0 在 给 定位 置 插入 新 节点 。 接 着 调用 rb_insert_color() 方法 执 
行 复杂 的 再 平衡 动作 。 如 果 页 被 加 入 到 页 高 速 缓 在 中 ， 则 返回 NULL。 如 果 页 已 经 在 高 速 缓 存 中 
了 ， 则 返回 这 个 已 存在 的 页 结构 地 址 。 


6.5 ”数据 结构 以 及 选择 

我 们 已 经 详细 讨论 了 Linux 中 最 重要 的 四 种 数据 结构 : 链表 、 队 列 、 映 射 和 红 黑 树 。 在 本 市 
中 ， 我 们 将 教 你 如 何在 代码 中 具体 选择 使 用 哪 种 数据 结构 。 

如 果 你 对 数据 集合 的 主要 操作 是 遍历 数据 ， 就 使 用 链表 。 事 实 上 没有 数据 结构 可 以 提供 比 线 
性 算法 复杂 度 更 好 的 算法 遍历 元 素 ， 所 以 你 应 该 用 最 简单 的 数据 结构 完成 简单 工作 。 另 外 ， 当 性 
能 并 非 首 要 考虑 因素 时 ， 或 者 当 你 需要 存储 相对 较 少 的 数据 项 时 ， 或 者 当 你 需要 和 内 核 中 其 他 使 
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用 链表 的 代码 交互 时 ， 也 该 优先 选择 链表 。 

如 打 你 的 代码 符合 生产 者 / 消费 者 模式 ， 则 使 用 队列 ， 特 别 是 如 果 你 想 (或 者 可 以 ) 要 一 个 
定 长 缓冲 。 队 列 会 使 得 添加 和 删除 项 的 工作 简单 有 效 。 同 时 队列 也 提供 了 先入 先 出 (FIFO) 语 
义 ， 而 这 也 正 是 生产 者 /消费 者 用 例 的 普遍 需求 。 另 一 方面 ， 如 果 你 需要 存储 一 个 大 小 不 明 的 
(可 能 很 多 项 ) 的 数据 集合 ， 那 么 链表 可 能 更 合适 ， 因 为 你 可 以 动态 添加 任何 数量 的 数据 项 。 

如 采 你 需要 映射 一 个 UID 到 一 个 对 象 ， 就 使 用 映射 。 映 射 结构 使 得 映射 工作 简单 有 效 ， 而 
且 映 射 可 以 帮 你 维护 和 分 配 UID。Linux 的 映射 接口 是 针对 UID 到 指针 的 映射， 它 并 不 适合 其 他 
场景 。 但 是 如 果 你 在 处 理发 给 用 户 空间 的 描述 符 ， 就 考虑 一 下 映射 吧 。 

如 果 你 需要 存储 大 量 数据 ， 并 且 检 索 迅 速 ， 那 么 红 黑 树 最 好 。 红 黑 树 可 确保 搜索 时 间 复 杂 度 
是 对 数 关 系 ， 同 时 也 能 保证 按 序 遇 历时 间 复 杂 度 是 线性 关系 。 虽 然 它 比 其 他 数据 结构 复杂 一 些 ， 
但 其 内 存 开 销 情 况 并 不 是 太 精 。 但 是 如 果 你 没有 执行 太 多 次 时 间 紧 迫 的 查找 操作 ， 则 红 黑 树 可 能 
不 是 最 好 选择 。 这 种 情况 最 好 使 用 链表 。 

要 是 上 述 数 据 结 构 都 不 能 满足 你 的 需要 ， 内 核 还 实现 了 一 些 较 少 使 用 的 数据 结构 ， 也 许 它们 
能 帮 你 ， 比 如 基 树 (trie 类 型 ) 和 位 图 。 只 有 当 寻 过 所 有 内 核 提供 的 数据 结构 都 不 能 福 足 时 ， 你 
才 需 要 自己 设计 数据 结构 。 经 常 在 独立 的 源 文 件 中 实现 的 一 种 常见 数据 结构 是 散 列表 。 因 为 散 列 
表 无 非 是 一 些 “ 桶 ”和 一 个 散 列 函数 ， 而 且 这 个 散 列 函数 是 针对 每 个 用 例 的 ， 因 此 用 非 芝 型 编程 
语言 (如 C 语 言 ) 实现 内 核 范围 内 的 统一 散 列 表 ， 其 实 这 并 没有 什么 价值 。 


6.6 算法 复杂 度 


在 计算 机 科学 和 相关 的 学 科 中 ， 很 有 必要 将 算法 的 复杂 度 ( 或 伸缩 讼 ) 量化 地 表示 出 来 。 
虽然 存在 各 种 各 样 表示 伸缩 度 的 方 尘 ， 但 最 常用 的 技术 还 是 研究 算 洁 的 源 近 行为 (asymptotic 
behavior)。 源 近 行 为 是 指 当 算法 的 输入 变 得 非常 大 或 接近 于 无 限 大 时 算法 的 行为 。 淅 近 行 为 充分 
显示 了 当 一 个 算法 的 输入 逐 源 变 大 时 ， 读 算 鞭 的 伸缩 度 如 何 。 研 究 算法 的 伸缩 讼 ( 当 输 入 增 大 时 
算法 执行 的 变化 〉 可 以 帮助 我 们 以 特定 基 淮 抽象 出 算法 模型 ， 从 而 更 好 地 理解 算法 的 行为 。 


6.6.1 算法 


算法 就 是 一 系列 的 指令 ， 它 可 能 有 一 个 或 多 个 输入 ， 最 后 产生 一 个 结果 或 输出 。 比 如 计算 一 
个 房间 中 人 数 的 步骤 就 是 一 个 算法 ， 它 的 输入 是 人 ， 计 数 结果 是 输出 。 在 Linux 内 核 中 ， 页 换 出 
和 进程 调度 都 是 算法 的 例子 。 从 数学 角度 讲 ， 一 个 算法 好 比 一 个 函数 《或 至 少 我 们 可 将 它 抽象 为 
一 个 函数 )。 比 如 ， 我 们 称 人 数 统计 算法 为 {， 要 统计 的 人 数 为 x， 可 以 写成 下 面 形 式 : 


y = f(x) 人数 统 计 的 函数 
这 里 y 是 统计 x 个 人 所 需 的 了 时间。 
6.6.2 大 o 符号 


一 种 很 有 用 的 浙 近 表示 法 就 是 上 限 一 一 它 是 一 个 函数 ， 其 值 自从 一 个 起 始点 之 后 总 龙 超 过 我 
们 所 研究 的 函数 的 值 ， 也 就 是 说 上 限 增长 等 于 或 者 快 于 我 们 研究 的 函数 。 一 个 特殊 符号 ， 大 0o 符 
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号 用 来 描述 这 种 增长 率 。 消 数 f(x) 可 写作 O(g(x)), 读 为 “f 是 g 的 大 0o”。 数 学 定义 形式 为 : 

如 果 f(x) 是 O(g(x))， 那 么 

3c，x" 满 足 f(x) 二 cog(X)，YVx>x' 

换 成 自然 语言 就 是 ， 完 成 f(x) 的 时 间 总 是 短 于 或 等 于 完成 g(x) 的 时 间 和 任意 常量 (至 少 ， 
只 要 输入 的 x 值 大 于 某 个 初始 值 x ) 的 乘积 。 

从 根本 上 讲 ， 我 们 需要 寻找 一 个 函数 ， 它 的 行为 和 我 们 的 算法 一 样 差 或 更 差 这 样 一 来 我 们 
贱 可 以 通过 给 该 函数 送 人 非 营 大 的 输入 ， 然 后 观察 该 函数 的 结果 ， 从 而 了 解 我 们 算 靶 的 执行 上 限 。 


6.6.3 大 86 符号 


当 大 多 数 人 谈论 大 o 符号 时 ， 更 准确 地 讲 他 们 谈论 的 更 接近 Donald Knuth 所 描述 的 大 8 符号 。 
从 技术 角度 讲 ， 大 。o 符号 适合 描述 上 限 ， 比 如 7 是 6 的 上 限 ， 同 样 道理 ，9、12 和 65 也 都 是 6 
的 上 限 。 但 在 后 来 大 多 数 人 讨论 函数 增长 率 时 ， 更 多 说 的 是 最 小 上 限 ， 或 一 个 抽象 出 具有 上 限 和 
下 限 9 的 函数 。 算 法 分 析 领 域 之 父 ，Knuth 教授 ， 将 其 描述 为 大 8 符号 ， 并 给 出 了 下 面 的 定义 : 

如 果 工 (x) 是 g(x) 的 大 8， 那 么 gfx) 既是 f(x) 的 上 限 也 是 f(x) 的 下 限 ， 


那么 ， 我 们 也 可 以 说 f(x) 是 g(x) 级 (order)。 级 或 大 96 ， 是 理解 内 核 中 算法 的 最 重要 的 数 
学 工具 之 一 。 

所 以 ， 当 人 们 读 到 大 o 符号 时 ， 他 们 往往 是 在 谈论 大 8 。 当 然 你 不 用 为 此 担心 ， 除 非 你 想 
讨 Knuth 教授 欢心 。 


6.6.4 ”时间 复杂 度 


比如 ， 再 次 考虑 计算 房间 里 的 人 数 ， 假 设 你 一 秒 钟 数 一 个 人 ， 那 么 如 果 有 7 了 7 个 人 在 房间 
里 ， 你 需要 化 7 秒 钟 数 它 们 。 显 然 如 果 有 ma 个 人 ， 需 要 花 n 种 来 数 它们 。 我 们 称 该 算法 复杂 度 为 
O(nD)。 如 果 任 务 是 在 房间 里 的 所 有 人 面前 跳舞 呢 ? 因为 不 管 房间 里 有 5 个 人 还 是 有 5 000 个人， 
跳舞 花费 的 时 间 都 是 相同 的 ， 所 以 该 任务 的 复杂 度 为 0(1)。 表 6-1 给 出 了 常见 的 复杂 讼 。 


表 6-1 时 间 复 杂 度 表 


O(g(x)) 名 称 

1 恒 量 《理想 的 伸缩 庶 ) 
logn 对 数 的 

n 线性 的 

n 平方 的 

n 立方 的 

2 指数 的 

nt 阶 尼 


日 ”如果 你 好 奇 ， 下 限 使 用 大 omega 符号 建 模 ， 其 定义 除了 g(x) 总 是 小 于 或 等 于 而 不 是 大 于 或 等 于 flx) 外 ， 和 大 o 相 
同 。 大 omega 表示 没有 大 0 表示 有 用 ， 因 为 发 现 隙 数 甚至 还 小 于 你 的 函数 ， 这 就 对 函数 的 行为 几乎 没有 指示 性 。 
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让 房间 里 的 所 有 人 相互 介绍 的 复杂 度 是 多 少 呢 ? 有 什么 函数 抽象 这 种 算法 呢 ? 如 果 介 绍 一 个 
人 需要 花费 30 秒 ， 那 么 相互 介绍 10 个 人 花 多 久 呢 ? 介绍 100 个 人 又 需要 花 多 久 呢 ? 理解 一 个 算 
法 在 提高 工作 负载 时 的 表现 ， 是 为 给 定 工作 选择 最 好 算法 的 关键 。 

显然 ， 应 如 免 使 用 复杂 度 为 O(n!) 或 0(2") 的 算法 ， 另 外 ， 用 复杂 度 为 0(1) 的 函数 代替 复 
杂 度 为 O(n) 的 函数 通常 都 会 提高 执行 性 能 。 但 是 情况 并 非 总 是 如 此 ， 不 能 仅仅 依靠 算法 复杂 度 
(大 o 符 号 ) 来 判断 哪 种 算法 在 实际 使 用 中 性 能 更 高 。 回 忆 一 下 ， 指 定 的 O(g(x))， 有 一 个 恒 量 
c 和 g(x) 相 乘 ， 所 以 有 可 能 复杂 度 为 0(1) 的 算法 需要 花费 3 个 小 时 才能 完成 任务 ， 而 且 无 论 输 
和信 多大， 总 是 要 花 3 个 小 时 。 这 样 的 话 很 可 能 要 比 复杂 度 为 O(n)、 但 输入 很 少 的 算法 费时 还 长 。 
因此 我 们 在 比较 算法 性 能 时 ， 还 需要 考虑 输入 规模 。 

我 们 不 赞成 使 用 复杂 的 算法 ， 但 是 时 刻 要 注意 算法 的 负载 和 典型 输入 集合 大 小 的 关系 。 不 要 
为 了 你 根本 不 需要 支持 的 伸缩 度 要 求 ， 育 目地 去 优化 算法 。 


6.7 ”小结 


本 章 我 们 讨论 了 许多 Linux 内 核 开 发 者 们 用 于 实现 从 进程 调度 到 设备 驱动 等 内 核 代 码 的 通用 
数据 结构 。 你 会 随 着 学 习 的 深信 ， 慢 慢 发 现 这 些 数据 结构 的 妙用 。 你 写 自己 的 内 核 代 码 时 ， 记 住 
总 是 应 该 重用 已 经 存在 的 内 核 基础 设施 ， 别 去 重复 造 轮子 ! 

我 们 也 介绍 了 算法 复杂 度 以 及 测量 和 标识 算法 复杂 度 的 工具 ， 其 中 最 值得 注意 的 是 大 o。 贯 
穿 本 书 ， 以 及 Linux 内 核 ， 大 o 都 是 我 们 评价 算法 和 内 核 组 件 在 多 用 户 、 处 理 器 、 进 程 、 网 络 连 
接 ， 以 及 其 他 环境 下 伸缩 度 的 重要 指标 。 


第 (7) 章 
中 断 和 中 断 处 理 


任何 操作 系统 内 核 的 核心 任务 ， 都 包含 有 对 连接 到 计算 机 上 的 硬件 设备 进行 有 效 管 理 ， 如 
硬盘 、 监 光碟 机 、 键 盘 、 忌 标 、3D 处 理 器 ， 以 及 无 线 电 等 。 而 想 要 管理 这 些 设备 ， 首 先 要 能 和 
它们 互通 音信 才 行 。 众 所 周知 ， 处 理 器 的 速度 跟 外 围 硬件 设备 的 速度 往往 不 在 一 个 数量 级 上 ， 因 
此 ， 如 果 内 核 采取 让 处 理 器 加 硬件 发 出 一 个 请 求 ， 然 后 专门 等 待 回应 的 办 法 ， 显 然 差 强人 意 。 婚 
然 硬件 的 啊 应 这 么 慢 ， 那 么 内 核 就 应 该 在 此 期 间 处 理 其 他 事务 ， 等 到 硬件 真正 完成 了 请 求 的 操作 
之 后 ， 再 回 过 头 来 对 它 进 行 处 理 。 

那么 到 底 如 何 让 处 理 器 和 这 些 外 部 设备 能 协同 工作 ， 且 不 会 降低 机 器 的 整体 性 能 呢 ? 轮 询 
(polling) 可 能 会 是 一 种 解决 办 法 。 它 可 以 让 内 核定 期 对 设备 的 状态 进行 查询 ， 然 后 做 出 相应 的 
处 理 。 不 过 这 种 方法 很 可 能 会 让 内 核 做 不 少 无 用 功 ， 因 为 无 论 硬件 设备 是 正在 忙碌 着 完成 任务 还 
是 已 经 大 功 告 成 ， 轮 询 总 会 周期 性 地 重复 执行 。 更 好 的 办 法 是 由 我 们 来 提供 一 种 机 制 ， 让 硬件 在 
需要 的 时 候 再 向 内 核发 出 信号 9。 这 就 是 中 断 机 制 。 在 本 章 中 ， 我 们 将 先 讨论 中 断 ， 进 而 讨论 内 
核 如 何 使 用 所 谓 的 中 断 处 理 函 数 处 理 对 应 的 中 断 。 


7.1 中 断 


中 断 使 得 硬件 得 以 发 出 通知 给 处 理 器 。 例 如 ， 在 你 融 击 键盘 的 时 候 ， 键 盘 控 制 器 〈 控 制 键盘 
的 硬件 设备 ) 会 发 送 一 个 中 断 ， 通 知 操作 系统 有 键 按 下 。 中 断 本 质 上 是 一 种 特殊 的 电信 号 ， 由 硬 
件 设备 发 向 处 理 器 。 处 理 器 接收 到 中 断后 ， 会 马上 向 操作 系统 反映 此 信和 号 的 到 来 ， 然 后 就 由 操作 
系统 负责 处 理 这 些 新 到 来 的 数据 。 硬 件 设备 生成 中 断 的 时 候 并 不 考虑 与 处 理 器 的 时 钟 同步 一 一 换 
句 话说 就 是 中 断 随时 可 以 产生 。 因 此 ， 内 核 随时 可 能 因为 新 到 来 的 中 断 而 被 打 断 。 

从 物理 学 的 角度 看 ， 中 断 是 一 种 电信 号 ， 由 硬件 设备 生成 ， 并 直接 送 和 中断 控 制 器 的 输入 引 
脚 中 一 一 中 断 控制 器 是 个 简单 的 电子 蕊 片 ， 其 作用 是 将 多 路 中 断 管线 ， 采 用 复 用 技术 只 通过 一 个 
和 处 理 器 相连 接 的 管线 与 处 理 器 通信 。 当 接收 到 一 个 中 断后 ， 中 断 控制 器 会 给 处 理 器 发 送 一 个 电 
信号 。 处 理 器 一 经 检测 到 此 信号 ， 便 中 断 自己 的 当前 工作 转 而 处 理 中 汤 。 此 后 ， 处 理 器 会 通知 操 
作 系 统 已 经 产生 中 断 ， 这 样 ， 操 作 系 统 就 可 以 对 这 个 中 断 进行 适当 地 处 理 了 。 

不 同 的 设备 对 应 的 中 断 不 同 ， 而 每 个 中 断 都 通过 一 个 唯一 的 数字 标志 。 因 此 ， 来 自 键盘 的 中 
断 就 有 别 于 来 自 硬盘 的 中 断 ， 从 而 使 得 操作 系统 能 够 对 中 断 进行 区 分 ， 并 知道 哪个 硬件 设备 产生 
了 哪个 中 断 。 这 样 ， 操 作 系 统 才能 给 不 同 的 中 断 提 供 对 应 的 中 断 处理 程 序 。 


日 、 变 内 棱 主 动 为 硬件 主动 。 一 一 译 者 注 
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这 些 中 断 值 通常 被 称 为 中 断 请 求 (IRQ) 线 。 每 个 耻 Q 线 都 会 被 关联 一 个 数值 量 一 一 例如 ， 
在 经 典 的 PC 机 上 ，IRQ 0 是 时 钟 中 断 ， 而 RQ 1 是 键盘 中 断 。 但 并 非 所 有 的 中 断 号 都 是 这 样 严 
格 定义 的 。 例 如 ， 对 于 连接 在 PCI 总线 上 的 设备 而 言 ， 中 断 是 动态 分 配 的 。 而 且 其 他 非 PC 的 体 
系 结构 也 具有 动态 分 配 可 用 中 断 的 特性 。 重 点 在 于 特定 的 中 断 总 是 与 特定 的 设备 相关 联 ， 并 且 内 
核 要 知道 这 些 信 息 。 实 际 上 ， 硬 件 发 出 中 断 是 为 了 引起 内 核 的 关注 : 啤 ， 我 有 新 的 按键 等 待 处 理 
呢 ， 读 取 并 人 处理 这 些 调皮 鬼 吧 ! 


异常 

在 操作 系统 中 ， 讨 论 中 断 就 不 能 不 提 及 异常 。 异 常 与 中 断 不 同 ， 它 在 产生 时 必须 考虑 与 
处 理 器 时 钟 同 步 。 实 际 上 ， 异 常 也 常常 称 为 同步 中 断 。 在 处 理 器 执行 到 由 于 编程 失误 而 导致 
的 错误 指令 (如 被 0 除 ) 的 时 候 ， 或 者 是 在 执行 期 间 出 现 特殊 情况 〈 如 缺 页 )， 必 须 千 内核 来 
处 理 的 时 候 ， 处 理 器 就 会 产生 一 个 异 前 。 因 为 计 多 处 理 器 体系 结构 处 理 异 贡 与 处 理 中 断 的 方 
式 类 似 ， 因 此 ， 内 核对 它们 的 处 理 也 很 类 似 。 本 草 对 中 断 〈 由 硬件 产生 的 异步 中 断 ) 的 讨论 ， 
大 部 分 也 适合 于 异常 〈 由 处 理 器 本 身 产 生 的 同步 中 断 )。 

你 已 经 熟悉 一 种 异常 : 在 第 6 章 中 你 已 看 到 ， 在 x86 体系 结构 上 如 何 通 过 软 中 断 实现 系 
统 调用 ， 那 就 是 陷入 内 核 ， 然 后 引起 一 种 特殊 的 异常 一 一 系统 调用 处 理 程序 异常 。 你 会 看 到 ， 
中 断 的 工作 方式 与 之 类 似 ， 其 差异 只 在 于 中 断 是 由 硬件 而 不 十 软 件 引 起 的 。 


7.2 中 断 处 理 程 序 


在 响应 一 个 特定 中 断 的 时 候 ， 内 核 会 执行 一 个 函数 ， 该 函数 叫做 中 断 处 理 程序 (interrmupt 
handler) 或 中 断 服务 例 程 (interrupt service routine，ISR)。 产 生 中 断 的 每 个 设备 都 有 一 个 强 相 应 
的 中 断 处 理 程序 。 例 如 ， 由 一 个 函数 专门 处 理 来 自 系统 时 钟 的 中 断 ， 而 另外 一 个 函数 专门 处 理由 
键盘 产生 的 中 断 。 一 个 设备 的 中 断 处 理 程序 是 它 设 备 驱动 程序 (driver〉 的 一 部 分 一 一 设备 驱动 
程序 是 用 于 对 设备 进行 管理 的 内 核 代码 。 

在 Linux 中 ， 中 断 处 理 程序 就 是 普 普 通通 的 C 函数 。 只 不 过 这 些 函 数 必须 按照 特定 的 类 型 
声明 ， 以 便 内 核能 够 以 标准 的 方式 传递 处 理 程序 的 信息 ， 在 其 他 方面 ， 它 们 与 一 般 的 函数 别 无 二 
致 。 中 断 处 理 程序 与 其 他 内 核 函 数 的 真正 区 别 在 于 ， 中 断 处 理 程序 是 被 内 核 调 用 来 啊 应 中 断 的 ， 
而 它们 运行 于 我 们 称 之 为 中 汤 上 下 文 的 特殊 上 下 文中 (关于 中 断 上 上 下文， 我 们 将 在 后 面 讨论 )。 
需要 指出 的 是 ， 中 断 上 下 文 偶尔 也 称 作 原子 上 下 文 ， 因 为 正如 我 们 看 到 的 ， 读 上 下 文中 的 执行 代 
码 不 可 阻塞 。 不 过 在 本 书 中 我 们 使 用 中 断 上 下 文 这 个 称谓 。 

中 断 可 能 随时 发 生 ， 因 此 中 断 处 理 程序 也 就 随时 可 能 执行 。 所 以 必须 保证 中 断 处 理 程序 能 够 
快速 执行 ， 这 样 才 能 保证 尽 可 能 快 地 恢复 中 断代 码 的 执行 。 因 此 ， 尽 管 对 硬件 而 言 ， 操 作 系 统 能 
迅速 对 其 中 断 进行 服务 非常 重要 ; 当然 对 系统 的 其 他 部 分 而 言 ， 让 中 断 处 理 程 序 在 尽 可 能 短 的 时 
间 内 完成 运行 也 同样 重要 。 


全 ”中断 处 理 程 序 通常 不 是 和 特定 设备 关联 ， 而 大 和 特定 中 断 关 联 的 ， 也 就 是 说 ， 如 果 一 个 设备 可 以 产生 多 种 不 同 
的 中 断 ， 那 么 该 设备 就 可 以 对 应 多 个 中 断 处 理 程序 ， 相 应 的 ， 该 设备 的 驱动 程序 也 就 需要 人 准备 多 个 这 样 的 国 数 。 
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最 起 码 的 ， 中 断 处 理 程序 要 负责 通知 硬件 设备 中 断 已 被 接收 : 轿 ， 硬 件 ， 我 听 到 你 了 ， 现 在 
回去 工作 吧 ! 但 是 中 断 处 理 程序 往往 还 要 完成 大 量 其 他 的 工具 。 例 如 ， 我 们 可 以 考虑 一 下 网 络 设 
备 的 中 断 处 理 程 序 面临 的 挑战 。 该 处 理 程序 除了 要 对 硬件 应 答 ， 还 要 把 来 自 硬 件 的 网 络 数据 包 找 
贝 到 内 存 ， 对 其 进行 处 理 后 再 交 给 合适 的 协议 栈 或 应 用 程序 。 显 而 易 见 ， 这 种 工作 量 不 会 太 小 ， 
尤其 对 于 如 今 的 千 兆 比特 和 万 睁 比特 以 太 网 卡 而 言 。 


7.3 上 半 部 与 下 半 部 的 对 比 

又 想 中 断 处 理 程序 运行 得 快 ， 又 想 中 断 处 理 程序 完成 的 工作 量 多 ， 这 两 个 目的 显然 有 所 
抵触 。 鉴 于 两 个 目的 之 则 存在 此 消 彼 长 的 承 盾 关系 ， 所 以 我 们 一 般 把 中 断 处 理 切 为 两 个 部 分 
或 两 半 。 中 断 处 理 程 序 是 上 半 部 (top half) 接收 到 一 个 中 断 ， 它 就 立即 开始 执行 ， 但 只 
做 有 严格 时 限 的 工作 ， 例 如 对 接收 的 中 断 进行 应 答 或 复位 硬件 ， 这 些 工作 都 是 在 所 有 中 断 被 
禁止 的 情况 下 完成 的 。 能 够 被 允许 稍 后 完成 的 工作 会 推迟 到 下 半 部 (bottom half) 去 。 此 后 ， 
在 合适 的 时 机 ， 下 半 部 会 被 开 中 断 执 行 。Linux 提供 了 实现 下 半 部 的 各 种 机 制 ， 第 8 章 会 讨 
论 这 些 机 制 。 

让 我 们 考察 一 下 上 半 部 和 下 半 部 分 割 的 例子 ， 还 是 以 我 们 的 老 朋 友 一 一 网 卡 作为 实例 。 当 网 
卡 接收 来 自 网 络 的 数据 包 时 ， 需 要 通知 内 核 数 据 包 到 了。 网 卡 需 要 立即 完成 这 件 事 ， 从 而 优化 网 
络 的 吞吐 量 和 传输 周期 ， 以 避免 超时 。 因 此 ， 网 卡 立 即 发 出 中 断 : 虽 ， 内 核 ， 我 这 里 有 最 新 数据 
包 了 。 内 核 通 过 执行 网 卡 已 注册 的 中 断 处 理 程序 来 做 出 应 管 。 

中 断 开始 执行 ， 通 知 硬件 ， 找 贝 最 新 的 网 络 数 据 包 到 内 存 ， 然 后 读 取 网 卡 更 多 的 数据 包 。 这 
些 都 是 重要 、 上 紧迫 而 又 与 硬件 相关 的 工作 。 内 核 通常 需要 快速 的 拷 风 网 络 数据 包 到 系统 内 存 ， 因 
为 网 卡 上 接收 网 络 数据 包 的 缓存 大 小 固定 ， 而 且 相 比 系统 内 存 也 要 小 得 多 。 所 以 上 述 拷贝 动作 一 
晶 被 延迟 ， 必 然 造成 缓存 溢出 一 一 进入 的 网 络 包 占 满 了 网 卡 的 缓存 ， 后 续 的 入 包 只 能 被 丢弃 。 当 
网 络 数 据 包 被 拷贝 到 系统 内 存 后 ， 中 断 的 任务 算是 完成 了 ， 这 时 它 将 控制 权 交 还 给 系统 被 中 断 前 
原先 运行 的 程序 。 处 理 和 操作 数据 包 的 其 他 工作 在 随后 的 下 半 部 中 进行 。 本 章 ， 我 们 考察 上 半 
部 :第 8 章 ， 我 们 关注 下 半 部 。 


7.4 注册 中 断 处 理 程序 


中 断 处 理 程序 是 管理 硬件 的 驱动 程序 的 组 成 部 分 。 每 一 设备 都 有 相关 的 驱动 程序 ， 如 果 设 备 
使 用 中 断 〈 大 部 分 设备 如 此 )， 那 么 相应 的 驱动 程序 就 注册 一 个 中 断 处 理 程 序 。 

驱动 程序 可 以 通过 request_irq0 国 数 注册 一 个 中 断 处 理 程序 〈 它 被 声明 在 文件 <linux/interrupt.h> 
中 )， 并 且 激 活 给 定 的 中 断 线 ， 以 处 理 中 断 : 


/* request_irq: 分 配 一 条 给 定 的 中 断 线 */ 
int request irgqlunsigned int irqg, 





irg handler 七 handler, 
unsigqgned long flags, 
const char *name, 

void *dev) 
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第 一 个 参数 irq 表示 要 分 配 的 中 断 号 。 对 某 些 设备 ， 如 传统 PC 设备 上 的 系统 时 钟 或 键盘 ， 
这 个 值 通 常 是 预先 确定 的 。 而 对 于 大 多 数 其 他 设备 来 说 ， 这 个 值 要 么 是 可 以 通过 探测 获取 ， 要 么 
可 以 通过 编程 动态 确定 。 

第 二 个 参数 handler 是 一 个 指针 ， 指 向 处 理 这 个 中 断 的 实际 中 断 处 理 程 序 。 只 要 操作 系统 一 
接收 到 中 断 ， 该 函数 就 被 调用 。 


typedef irqreturn 上 (*irqg handler 七 ) (int, void *); 


广 意 handler 函数 的 原型 ， 它 接受 两 个 参数 ， 并 有 一 个 类 型 为 irqretur t 的 返回 值 。 我 们 将 
在 本 章 随 后 的 部 分 讨论 这 个 函数 。 


7.4.1 中 断 处 理 程 序 标志 


第 三 个 参数 flags 可 以 为 0， 也 可 能 是 下 列 一 个 或 多 个 标志 的 位 掩 码 。 其 定义 在 文件 <linux/ 
interrupt.h>。 在 这 些 标志 中 最 重要 的 是 : 

"JIRQF_DISABLED 一 一 该 标志 被 设置 后 ， 意 味 着 内 核 在 处 理 中 断 处 理 程序 本 身 期 间 ， 要 禁 

止 所 有 的 其 他 中 断 。 如 果 不 设 置 ， 中 断 处 理 程序 可 以 与 除 本 身 外 的 其 他 任何 中 断 同 时 运 
行 。 多 数 中 断 处 理 程 序 是 不 会 去 设置 该 位 的 ， 因 为 禁止 所 有 中 断 是 一 种 野 襄 行为。 这 种 用 

法 留 给 希望 快速 执行 的 轻 量 级 中 断 。 这 一 标志 是 SA_INTERRUPT 标志 的 当前 表现 形式 ， 

在 过 去 的 中 断 中 用 以 区 分 “快速 ”和 “ 慢 速 ”中 断 。 

* IRQF_SAMPLE RANDOM 一 此 标志 表明 这 个 设备 产生 的 中 断 对 内 核 箭 地 (entropy pool) 

有 贡献 。 内 核 燃 池 人 负责 提供 从 各 种 随机 事件 导出 的 真正 的 随机 数 。 如 果 指 定 了 读 标 志 ， 
那么 来 自 该 设备 的 中 断 间 隔 时 间 了 就 会 作为 埔 填 充 到 精 字 。 如 果 你 的 设备 以 预知 的 速率 产 
生 中 断 〈 如 系统 定时 器 )， 或 者 可 能 受 外 部 攻击 者 〈 如 联网 设备 ) 的 影响 ， 那 么 就 不 要 设 
置 这 个 标志 。 相 反 ， 有 其 他 很 多 硬件 产生 中 断 的 速率 是 不 可 预知 的 ， 所 以 都 能 成 为 一 种 

较 好 的 炳 源 。 

* IRQF_TIMER 一 一 该 标 志 是 特别 为 系统 定时 器 的 中 断 处 理 而 准备 的 。 

"IRQF SHARED 一 一 此 标志 表明 可 以 在 多 个 中 断 处 理 程序 之 间 共 享 中 断 线 。 在 同一 个 给 定 

线 上 注册 的 每 个 处 理 程序 必须 指定 这 个 标志 ; 否则 ， 在 每 条 线 上 只 能 有 一 个 处 理 程序 。 有 
关 共 享 中 断 处 理 程序 的 更 多 信息 将 在 下 面 的 内 容 中 提供 。 

第 四 个 参数 name 是 与 中 断 相 关 的 设备 的 ASCII 文本 表示 。 例 如 ，PC 机 上 键盘 中 断 对 应 的 
这 个 值 为 “keyboard”。 这 些 名 字 会 被 /proc/irq 和 /proc/interrupts 文件 使 用 ， 以 便 与 用 户 通 信 ， 稍 
后 我 们 将 对 此 进行 简短 讨论 。 

第 五 个 参数 dev 用 于 共享 中 断 线 。 当 一 个 中 断 处 理 程序 需要 释放 时 〈 稍 后 讨论 )，dev 将 提 
供 唯一 的 标志 信息 〈cookie)， 以 便 从 共享 中 新 线 的 诸多 中 断 处 理 程 序 中 删除 指定 的 那 一 个 。 如 
果 没 有 这 个 参数 ， 那 么 内 核 不 可 能 知道 在 给 定 的 中 断 线 上 到 底 要 删除 哪 一 个 处 理 程序 。 如 果 无 须 
共享 中 断 线 ， 那 么 将 该 参数 赋 为 空 值 (NULL) 就 可 以 了 ， 但 是 ， 如 果 中 断 线 是 被 共享 的 ， 那 么 
就 必须 传递 唯一 的 信息 《除非 设备 又 旧 又 破 且 位 于 ISA 总 线 上 ， 和 那么 就 必须 支持 共享 中 断 )。 另 
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外 ， 内 核 每 次 调用 中 断 处 理 程 序 时 ， 都 会 把 这 个 指针 传递 给 它 9。 实 践 中 往往 会 通过 它 传递 驱动 
程序 的 设备 结构 : 这 个 指针 是 唯一 的 ， 而 且 有 可 能 在 中 断 处 理 程序 内 被 用 到 。 

request_irq() 成 功 执行 会 返回 0。 如果 返 回 非 0 值 ， 就 表示 有 错误 发 生 ， 在 这 种 情况 下 ， 指 
定 的 中 断 处 理 程序 不 会 被 注册 。 最 常见 的 错误 是 -EBUSY， 它 表示 给 定 的 中 断 线 已 经 在 使 用 (或 
者 当前 用 户 或 者 你 设 有 指定 IRQF_SHARED)。 

注意 ，request_irq() 函数 可 能 会 睡眠 ， 因 此 ， 不 能 在 中 断 上 下 文 或 其 他 不 允许 阻塞 的 代码 中 
调用 该 函数 。 天 真 地 在 睡眠 不 安全 的 上 下 文中 调用 request_irq0 函数 ， 是 一 种 常见 错误 。 造 成 
这 种 错误 的 部 分 原因 是 为 什么 request_irq0 会 引起 堵塞 一 一 这 确实 让 人 费解 。 在 注册 的 过 程 中 ， 
内 核 需 要 在 /proc/irq 文件 中 创建 一 个 与 中 断 对 应 的 项 。 函 数 proc_mkdir0 就 是 用 来 创建 这 个 新 
的 procfs 项 的 。proc_mkdirg 通过 调用 函数 proc_create0O 对 这 个 新 的 profs 项 进行 设置 ， 而 proc_ 
create() 会 调用 函数 kmalloc() 来 请 求 分 配 内 存 。 我 们 在 第 12 章 中 将 会 看 到 ， 函 数 kmalloc0 是 可 
以 睡眠 的 。 看 清楚 了 ， 你 的 程序 就 是 跑 到 那里 小 葡 去 了 ! 


7.4.2 一 个 中 断 例 子 
在 一 个 驱动 程序 中 请 求 一 个 中 断 线 ， 并 在 通过 request_irq0 安装 中 断 处 理 程序 : 


request iiro(f) : 


if (request irqlirqn, my interrupt, IRQF SHARED，"my_device"，my_dev)) | 
Printk (KERN ERR "my device: canmnot register IRQ $d\n", irqn),; 
return -EIO:; 


} 


在 这 个 例子 中 ，irqn 是 请 求 的 中 断 线 ; my_interrupt 是 中 断 处 理 程 序 ; 我 们 通过 标志 设置 中 
断 线 可 以 共享 ; 设备 命名 为 “my_device”; 最 后 是 传递 my_dev 变量 给 dev 形 参 。 如 果 请 求 失败 ， 
那么 这 段 代 码 将 打印 出 一 个 错误 并 返回 。 如 果 调 用 返回 0， 则 说 明 处 理 程 序 已 经 成 功 安装 。 此 
后 ， 处 理 程 序 就 会 在 啊 应 该 中 断 时 被 调用 。 有 一 点 很 重要 ， 初 始 化 硬件 和 注册 中 断 处 理 程 序 的 顺 
序 必 须 正 确 ， 以 防止 中 断 处 理 程序 在 设备 初始 化 完成 之 前 就 开始 执行 。 


7.4.3 释放 中 断 处 理 程 序 
外 载 驱动 程序 时 ， 需 要 注销 相应 的 中 断 处 理 程序 ， 并 释放 中 断 线 。 上 述 动作 需要 调用 : 


void free irq(unsigned int irqg, void *dev) 


如 果 指 定 的 中 断 线 不 是 共享 的 ， 那 么 ， 读 函数 删除 处 理 程序 的 同时 将 禁用 这 条 中 断 线 。 如 果 
中 断 线 是 共享 的 ， 则 仅 删 除 dev 所 对 应 的 处 理 程序 ， 而 这 条 中 断 线 本 身 只 有 在 删除 了 最 后 一 个 处 
理 程 序 时 才 会 被 禁用 。 由 此 可 以 看 出 为 什么 唯一 的 dev 如 此 重要 。 对 于 共享 的 中 断 线 ， 需 要 一 个 
唯一 的 信息 来 区 分 其 上 面 的 多 个 处 理 程 序 ， 并 让 free_irq0 仅仅 删除 指定 的 处 理 程序 。 不 管 在 哪 


但 “中断 处 理 程 序 都 是 预先 在 内 棱 进 行 和 注册 的 回调 函数 (callback function)， 而 不 同 的 国 数位 于 不 同 的 坚 动 程序 
中 ， 所 以 在 这 些 国 数 共 享 同一 个 中 断 线 时 ， 内 核 必 须 准确 地 为 它们 创造 执行 环境 ， 此 时 就 可 以 通过 这 个 指针 
将 有 用 的 环境 信息 传递 给 它们 了 。 一 一 译 者 注 


9%6 有 7 烛 


种 情况 下 《共享 或 不 共享 )， 如 果 dev 非 空 ， 它 都 必须 与 需要 删除 的 处 理 程序 相 匹 配 。 必 须 从 进 
程 上 下 文中 调用 free_irq0。 
表 7-1 给 出 了 终端 处 理 函 数 的 注册 和 注销 函数 。 


表 7-1 中 断 注册 方法 表 


函数 描 述 
request_irq() 在 给 定 的 中 断 线 上 注册 一 给 定 的 中 断 处 理 程 序 
free_irq() 如 果 在 给 定 的 中 断 线 上 没有 中 断 处 理 程 序 ， 则 注销 响应 的 处 理 程 序 ， 并 禁用 其 中 断 线 


7.5 ”编写 中 断 处 理 程序 
以 下 是 一 个 中 断 处 理 程序 声明 ; 


static irqreturn t intr handler (int irq, void *dev) 


注意 ， 它 的 类 型 与 request_irq() 参数 中 handler 所 要 求 的 参数 类 型 相 匹配 。 第 一 个 参数 irq 就 
是 这 个 处 理 程 序 要 响应 的 中 断 的 中 断 号 。 如 今 ， 这 个 参数 已 经 没有 太 大 用 处 了 ， 可 能 只 是 在 打印 
日 志 信 息 时 会 用 到 。 而 在 2.0 版 以 前 的 Linux 内 核 中 ， 由 于 没有 dev 这 个 参数 ， 必 须 通过 irq 才 
能 区 分 使 用 相同 驱动 程序 ， 因 而 也 使 用 相同 的 中 断 处 理 程序 的 多 个 设备 。 例 如 ， 具 有 多 个 相同 类 
型 硬盘 驱动 控制 器 的 计算 机 。 

第 二 个 参数 dev 是 一 个 通用 指针 ， 它 与 在 中 断 处 理 程序 注册 时 传递 给 request_irq() 的 参 
数 dev 必须 一 致 。 如 果 该 值 有 唯一 确定 性 (这样 做 是 为 了 能 支持 共享 )， 那 么 它 就 相当 于 一 个 
cookie， 可 以 用 来 区 分 共享 同一 中 断 处 理 程序 的 多 个 设备 。 另 外 dev 也 可 能 指向 中 断 处 理 程序 使 
用 的 一 个 数据 结构 。 因 为 对 每 个 设备 而 言 ， 设 备 结构 都 是 唯一 的 ， 而 且 可 能 在 中 断 处 理 程 序 中 也 
用 得 到 ， 因 此 ， 它 也 通常 被 看 做 dev。 

中 断 处 理 程 序 的 返回 值 是 一 个 特殊 类 型 ; irqreturn_ t。 中 断 处 理 程序 可 能 返回 两 个 特殊 的 
值 : IRQ_NONE 和 IRQ_HANDLED。 当 中 断 处 理 程序 检测 到 一 个 中 断 ， 但 该 中 断 对 应 的 设备 
并 不 是 在 注册 处 理 函 数 期 间 指 定 的 产生 源 时 ， 返 回 RQ_NONE ; 当中 断 处 理 程序 被 正确 调用 ， 
且 确 实 是 它 所 对 应 的 设备 产生 了 中 断 时 ， 返 回 卫 Q_HANDLED。 另 外 ， 也 可 以 使 用 宏 IRQ_ 
RETVAL(val。 如 果 val 为 非 0 值 ， 那 么 该 宏 返 回 IRQ_ HANDLED ; 否则 ， 返 回 IRQ NONE。 
利用 这 些 特 殊 的 值 ， 内 核 可 以 知道 设备 发 出 的 是 否 是 一 种 虚假 的 (未 请 求 ) 中 断 。 如 果 给 定 中 
断 线 上 所 有 中 断 处 理 程序 返回 的 都 是 IRQ_NONE， 那 么 ， 内 核 就 可 以 检测 到 出 了 问题 。 注 意 ， 
irqgreturn_t 这 个 返回 类 型 实际 上 就 是 一 个 int 型。 之 所 以 使 用 这 些 特殊 值 是 为 了 与 早期 的 内 核 保 
持 兼 容 一 一 2.6 版 之 前 的 内 核 并 不 支持 这 种 特性 ， 中 断 处 理 程 序 只 需 返 回 void 就 行 了 。 如 果 要 在 
2.4 或 更 早 的 内 核 上 使 用 这 样 的 驱动 程序 ， 只 需 简单 地 将 typedef irqreturn_t 改 为 void， 屏 项 掉 此 
特性 ， 并 给 no-ops 定义 不 同 的 返回 值 ， 其 他 用 不 着 做 什么 大 的 修改 。 中 断 处 理 程 序 通常 会 标记 
为 static， 因 为 它 从 来 不 会 被 别 的 文件 中 的 代码 直接 调用 。 

中 断 处 理 程序 扮演 什么 样 的 角色 要 取决 于 产生 中 断 的 设备 和 该 设备 为 什么 要 发 送 中 断 。 即 
使 其 他 什么 工作 也 不 做 ， 绝 大 部 分 的 中 断 处 理 程序 至 少 需要 知道 产生 中 断 的 设备 ， 告 诉 它 已 经 
收 到 中 断 了。 对 于 复杂 一 些 的 设备 ， 可 能 还 需要 在 中 断 处 理 程 序 中 发 送 和 接收 数据 ， 以 及 执行 一 
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些 扩充 的 工作 。 如 前 所 述 ， 应 尽 可 能 将 扩充 的 工作 推 给 下 半 部 处 理 程序 ， 这 点 将 在 第 8 章 中 进 

行 讨论 。 

_ 重 入 和 中 断 处 理 程序 

Linux 中 的 中 断 处 理 程序 是 无 须 重信 的 。 当 一 个 给 定 的 中 上 断 处 理 程序 正在 执行 时 ， 相 应 的 

中 断 线 在 所 有 处 理 器 上 都 会 被 屏蔽 掉 ， 以 防止 在 同一 中 断 线 上 接收 另 一 个 新 的 中 断 。 通 常情 
况 下 ， 所 有 其 他 的 中 断 都 是 打开 的 ， 所 以 这 些 不 同 中 断 线 上 的 其 他 中 断 都 能 被 处 理 ， 但 当前 
中 断 线 总 是 被 禁止 的 。 由 此 可 以 看 出 ， 同 一 个 中 断 处 理 程序 绝对 不 会 被 同时 调用 以 处 理 估 套 
的 中 断 。 这 极 大 地 简化 了 中 断 处 理 程序 的 编写 。 


7.5.1 共享 的 中 断 处 理 程序 


共享 的 处 理 程序 与 非 共 享 的 处 理 程序 在 注册 和 运行 方式 上 比较 相似 ， 但 差异 主要 有 以 下 
三 处 : 
* request_irq() 的 参数 flags 必须 设置 IRQF SHARED 标志 。 
* 对 于 每 个 注册 的 中 断 处 理 程序 来 说 ，dey 参数 必须 唯一 。 指 向 任 一 设备 结构 的 指针 就 可 以 
满足 这 一 要 求 ; 通常 会 选择 设备 结构 ， 因 为 它 是 唯一 的 ， 而 且 中 断 处 理 程序 可 能 会 用 到 
它 。 不 能 给 共享 的 处 理 程序 传递 NULL 值 。 
* 中断 处 理 程 序 必 须 能 够 区 分 它 的 设备 是 否 真 的 产生 了 中 断 。 这 上 既 需 要 硬件 的 支持 ， 也 需要 
处 理 程序 中 有 相关 的 处 理 逻 辑 。 如 果 硬 件 不 支持 这 一 功能 ， 那 中 断 处 理 程序 肯定 会 束 手 无 
策 ， 它 根本 设法 知道 到 底 是 与 它 对 应 的 设备 发 出 了 这 个 中 断 ， 还 是 共享 这 条 中 断 线 的 其 他 
设备 发 出 了 这 个 中 断 。 
所 有 共享 中 断 线 的 驱动 程序 都 必须 满足 以 上 要 求 。 只 要 有 任何 一 个 设备 没有 按 规则 进行 共 
享 ， 那 么 中 断 线 就 无 法 共享 了 。 指 定 IRQF_SHARED 标志 以 调用 request irq0) 时 ， 只 有 在 以 下 
两 种 情况 下 才 可 能 成 功 : 中 断 线 当前 未 被 注册 ， 或 者 在 该 线 上 的 所 有 已 注册 处 理 程序 都 指定 了 
IRQF SHARED。 注 意 ， 在 这 一 点 上 2.6 版 与 以 前 的 内 核 是 不 同 的 ， 共 享 的 处 理 程序 可 以 混用 
IRQF DISABLED., 
内 核 接收 一 个 中 断后 ， 它 将 依次 调用 在 该 中 断 线 上 注册 的 每 一 个 处 理 程序 。 因 此 ， 一 个 处 
理 程序 必须 知道 它 是 否 应 该 为 这 个 中 断 负责 。 如 果 与 它 相关 的 设备 并 设 有 产生 中 断 ， 那 么 处 理 程 
序 应 该 立即 退出 。 这 需要 硬件 设备 提供 状态 寄存 器 〈 或 类 似 机 制 )， 以 便 中 断 处 理 程序 进行 检查 。 
毫 无 疑问 ， 大 多 数 硬 件 都 提供 这 种 功能 。 


7.5.2 中断 处 理 程序 实例 


让 我 们 考察 一 个 实际 的 中 断 处 理 程 序 ， 它 来 自 real-time clock (RTC) 哎 动 程序 ， 可 以 在 
drivers/charrtc.c 中 找到 。 很 多 机 器 (包括 PC) 都 可 以 找到 RTC。 它 是 一 个 从 系统 定时 器 中 独立 
出 来 的 设备 ， 用 于 设置 系统 时 钟 ， 提 供 报警 器 (alarm) 或 周期 性 的 定时 器 。 对 大 多 数 体系 结构 
而 言 ， 系 统 时 钟 的 设置 ， 通 常 只 需要 向 某 个 特定 的 寄存 器 或 VO 地 址 写 人 想 要 的 时 间 就 可 以 了 。 
然而 报警 器 或 周期 性 定时 器 通常 就 得 靠 中 断 来 实现 。 这 种 中 断 与 生活 中 的 阅 铃 差不多 : 中 断 发 出 
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时， 报警 器 或 定时 器 就 会 启动 。 
RTC 驱动 程序 装载 时 ，rtc_init( 函数 会 被 调用 ， 对 这 个 驱动 程序 进行 初始 化 。 它 的 职责 之 
一 就 是 注册 中 断 处 理 程序 : 
/= 对 zc irg 注册 rtc interrupt */ 
IE (request irqglrtec irq, rtc interrupt, IRQF SHARED, "rtce", (void *}grtc port)) { 
printk (KERN ERR "rtc: cannot register IRQ $d\n", rtc irg); 
return -EIO; . 


} 


从 中 我 们 看 到 ， 中 断 号 由 rtc_irq 指定 。 这 个 变量 用 于 为 给 定 体 系 结构 指定 RTC 中 断 。 例 
如 ， 在 PC 上 ，RTC 位 于 IRQ 8。 第 二 个 参数 是 我 们 的 中 断 处 理 程 序 rtc_interrupt 一 一 它 将 与 其 他 
中 断 处 理 程序 共享 中 断 线 ， 因 为 它 设 置 了 IRQF_SHARED 标志 。 由 第 四 个 参数 我 们 看 出 ， 驱 动 
程序 的 名 称 为 “rtc”。 因 为 这 个 设备 允许 共享 中 断 线 ， 所 以 它 给 dev 型 参 传递 了 一 个 面向 每 个 设 
备 的 实 参 值 

最 后 要 展示 的 是 处 理 程 序 本 身 : 


static irqreturn t rtc interrupt (int IF 可 ，Voida *dev) 
{ 
A 
* 可 以 是 报警 器 中 断 、 更 新 完成 的 中 新 或 周期 性 中 沁 
* 我 们 把 状态 保存 在 rtc_irq_data 的 低 字 节 中 ， 
* 而 把 从 最 后 一 次 读 取 之 后 所 接收 的 中 断 号 保存 在 其 余 字 节 中 
$y 
spin lock (ig&rtc lock); 


rtc irdg data += OX100; 
rtc irdg data &= ~ Oxff; 
rtc irg data |= (CMOS READ(RTC INTR FLAGS) & OxF0); 


if (rtc status & RTC TIMER ON) 
mod timer(grtc irqg timer, jiffies + HZ2/rtc freqg + 2*HZ/100}); 


spin unlock {grtce lock); 


A 
* 现在 执行 其 余 的 操作 
*/ 
spin lock{(grtc task lock); 
if (rtc callback) 
rtc callback->funclrtc callback->private data);} 


spin unlock{(&rtc task lock); 
wake up interruptible(grtc wait),; 


kill fasync (&rtc async meue, SIGIO, POLL IN); 


return 工具 总 HANDLED; 


} 


只 要 计算 机 一 接收 到 RTC 中 断 ， 就 会 调用 这 个 国 数 。 首 先 要 注意 的 是 使 用 了 自 旋 锁 一 一 第 
一 次 调用 是 为 了 保证 rtc_irq_data 不 被 SMP 机 器 上 的 其 他 处 理 器 同时 访问 ， 第 二 次 调用 避免 rtc_ 
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callback 出 现 相 同 的 情况 。 锁 机 制 在 第 10 章 中 进行 讨论 。 

rtc_irq_data 变量 是 无 符号 长 整数 ， 存 放 有 关 RTC 的 信息 ， 每 次 中 断 时 都 会 更 新 以 反映 中 断 

接 下 来 ， 如 果 设 置 了 RTC 周期 性 定时 器 ， 就 要 通过 函数 mod timer() 对 其 更 新 。 定 时 器 在 第 
11 章 进 行 讨 论 。 

代码 的 最 后 一 部 分 一 一 处 于 注释 “现在 执行 其 余 的 操作 ”下 ， 会 执行 一 个 可 能 被 预先 设置 好 
的 回调 函数 。RTC 驱动 程序 允许 注册 一 个 回调 函数 ， 并 在 每 个 RTC 中 断 到 来 时 执行 。 

最 后 ， 这 个 畏 数 会 返回 IRQ_HANDLED， 表 明 已 经 正确 地 完成 了 对 此 设备 的 操作 。 因 为 这 
个 中 断 处 理 程 序 不 支持 共享 ， 而 且 RTC 也 设 有 什么 用 来 测试 虚假 中 断 的 机 制 ， 所 以 该 处 理 程序 
总 是 返回 IRQ_HANDLED， 


7.6 中断 上 下 文 


当 执行 一 个 中 断 处 理 程序 时 ， 内 核 处 于 中 断 上 下 文 (interrput context) 中 。 让 我 们 先 回忆 
一 下 进程 上 下 文 。 进 程 上 下 文 是 一 种 内 核 所 处 的 操作 模式 ， 此 时 内 核 代表 进程 执行 一 一 例如 ， 
执行 系统 调用 或 运行 内 核 线程 。 在 进程 上 下 文中 ， 可 以 通过 current 宏 关 联 当 前 进程 。 此 外 ， 
因为 进程 是 以 进程 上 下 文 的 形式 连接 到 内 核 中 的 ， 因 此 ， 进 程 上 下 文 可 以 睡眠 ， 也 可 以 调用 调 
度 程序 。 

与 之 相反 ， 中 断 上 下 文 和 进程 并 设 有 什么 瓜葛 。 与 current 宏 也 是 不 相干 的 (尽管 它 会 指向 
被 中 断 的 进程 )。 因 为 没有 后 备 进程 ， 所 以 中 断 上 下 文 不 可 以 睡眠 ， 否 则 又 怎 能 再 对 它 重 新 调度 
呢 ? 因此 ， 不 能 从 中 断 上 下 文中 调用 某 些 函 数 。 如 果 一 个 函数 睡眠 ， 就 不 能 在 你 的 中 断 处 理 程序 
中 使 用 它 一 一 这 是 对 什么 样 的 函数 可 以 在 中 断 处 理 程序 中 使 用 的 限制 。 

中 断 上 下 文具 有 较为 严格 的 时 间 限 制 ， 因 为 它 打 断 了 其 他 代码 。 中 断 上 下 文中 的 代码 应 当 迅 
速 、 简 洁 ， 尽 量 不 要 使 用 循环 去 处 理 繁重 的 工作 。 有 一 点 非常 重要 ， 请 永远 牢记 ; 中 断 处 理 程 序 
打 断 了 其 他 的 代码 〈 甚 至 可 能 是 打 断 了 在 其 他 中 断 线 上 的 另 一 中 断 处 理 程序 )。 正 是 因为 这 种 异 
步 执行 的 特性 ， 所 以 所 有 的 中 断 处 理 程序 必须 尽 可 能 的 迅速 、 简 洁 。 尽 量 把 工作 从 中 断 处 理 程序 
中 分 离 出 来 ， 放 在 下 半 部 来 执行 ， 因 为 下 半 部 可 以 在 更 合适 的 时 间 运 行 。 

中 断 处 理 程序 栈 的 设置 是 一 个 配置 选项 。 曾 经 ， 中 断 处 理 程 序 并 不 具有 自己 的 栈 。 相 反 ， 它 
们 共享 所 中 断 进 程 的 内 核 栈 号 。 内 核 栈 的 大 小 是 两 页 ， 具 体 地 说 ， 在 32 位 体系 结构 上 是 8SKB， 
在 64 位 体系 结构 上 是 16KB。 因 为 在 这 种 设置 中 ， 中 断 处 理 程序 共享 别人 的 堆栈 ， 所 以 它们 在 
栈 中 获取 空间 时 必须 非常 节约 。 当 然 ， 内 核 栈 本 来 就 很 有 限 ， 因 此 ， 所 有 的 内 核 代 码 都 应 该 谨慎 
利用 它 。 

在 2.6 成 早期 的 内 核 中 ， 增 加 了 一 个 选项 ， 把 栈 的 大 小 从 两 页 减 到 一 页 ， 也 就 是 在 32 位 的 
系统 上 只 提供 4KB 的 栈 。 这 就 减轻 了 内 存 的 压力 ， 因 为 系统 中 每 个 进程 原先 都 需要 两 页 连续 ， 
且 不 可 换 出 的 内 核 内 存 。 为 了 应 对 栈 大 小 的 减少 ， 中 断 处 理 程序 拥有 了 自己 的 栈 ， 每 个 处 理 器 一 
个 ， 大 小 为 一 页 。 这 个 栈 就 称 为 中 断 栈 ， 尽 管 中 断 栈 的 大 小 是 原先 共享 栈 的 一 半 ， 但 平均 可 用 栈 


日 、 总 得 有 一 个 进程 在 运行 着 。 当 没有 进程 可 调度 时 ， 空 任务 运行 。 
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空间 大 得 多 ， 因 为 中 断 处 理 程序 把 这 一 整 页 占 为 己 有 。 
你 的 中 断 处 理 程 序 不 必 关 心 栈 如 何 设置 ， 或 者 内 核 栈 的 大 小 是 多 少 。 总 而 言 之 ， 尽 量 节 约 内 
核 栈 空间 。 


7.7 中 断 处 理 机 制 的 实现 


中 断 处 理 系统 在 Linux 中 的 实现 是 非常 依赖 于 体系 结构 的 ， 想 必 你 对 此 不 会 感到 特别 惊讶 。 
实现 依赖 于 处 理 器 、 所 使 用 的 中 断 控制 器 的 类 型 、 体 系 结构 的 设计 及 机 器 本 身 。 

图 7-1 是 中 断 从 硬件 到 内 核 的 路 由 。 设 备 产生 中 断 ， 通 过 总 线 把 电信 号 发 送 给 中 断 控制 器 。 
如 果 中 断 线 是 沿 活 的 (它们 是 允许 被 屏 项 的 )， 那 么 中 断 控 制 絮 就 会 把 中 断 发 往 处 理 器 。 在 大 多 
数 体 系 结构 中 ， 这 个 工作 就 是 通过 电信 号 给 处 理 器 的 特定 管 脚 发 送 一 个 信号 。 除 非 在 处 理 器 上 禁 
止 该 中断， 否则， 处 理 器 会 立即 停止 它 正 在 做 的 事 ， 关 闭 中 断 系 统 ， 然 后 跳 到 内 存 中 预定 义 的 位 
置 开始 执行 那里 的 代码 。 这 个 预定 义 的 位 置 是 由 内 核 设置 的 ， 是 中 断 处 理 程序 的 入 口 点 。 


handle_IRQ_event() 


RE NN 
| wp EE 
该 线 上 是 否 有 在 该 线 上 运行 所 有 
中 断 处 理 程序 中 断 处 理 程序 
i 
有 


bi i 
ret_from_int0 一 > 中 断 的 代码 





图 7-1 中 断 从 硬件 到 内 核 的 路 由 


在 内 核 中 ， 中 断 的 旅程 开始 于 预定 多 人 口 点 ， 这 类 似 于 系统 调用 通过 预定 义 的 晃 常 句柄 进 
和 人 内核。 对 于 每 条 中 断 线 ， 处 理 器 都 会 跳 到 对 应 的 一 个 唯一 的 位 置 。 这 样 ， 内 核 就 可 知道 所 接 
收 中 断 的 IRQ 号 了 。 初 始 人 口 点 只 是 在 栈 中 保存 这 个 号 ， 并 存放 当前 寄存 器 的 值 (这 些 值 属于 
被 中 断 的 任务 ) ; 然后 ， 内 核 调用 函数 do_IRQ()。 从 这 里 开始 ， 大 多 数 中 断 处 理 代码 是 用 C 编写 
的 一 一 但 它们 依然 与 体系 结构 相关 。 

do_IRQO 的 声明 如 下 : 


unsigned int do IRO(lstruct pt regs regs) 


因为 C 的 调用 惯例 是 要 把 函数 参数 放 在 栈 的 顶部 ， 因 此 pt_regs 结构 包含 原始 寄存 器 的 值 ， 
这 些 值 是 以 前 在 汇编 入 口 例 程 中 保存 在 栈 中 和 的。 中断 的 值 也 会 得 以 保存 ， 所 以 ，do_IRQO 可 以 
将 它 提取 出 来 。 

计算 出 中 断 号 后 ，do_IRQO 对 所 接收 的 中 断 进 行 应 答 ， 禁 止 这 条 线 上 的 中 断 传 递 。 在 普通 
的 PC 机 上 ， 这 些 操作 是 由 mask_and ack_8259A() 来 完成 的 。 
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接 下 来 ，do_IRQO 需要 确保 在 这 条 中 断 线 上 有 一 个 有 效 的 处 理 程序 ， 而 且 这 个 程序 已 经 启 
动 ， 但 是 当前 并 没有 执行 。 如 果 是 这 样 的 话 ，do_IRQ() 就 调用 handle_IRQ_event() 来 运行 为 这 条 
中 断 线 所 安装 的 中 断 处 理 程序 。 handle_IRQ_event0 方法 被 定义 在 文件 kernel/irq/handler.c 中 。 


/人 

* handle 工 RO event - irdg action chain handler 

考 辣 1 rgd: the interrupt number 

二 action: the interrupt action chain for this irg 
得 

叫 


Handles the action chain of an irg event 
| 
irqreturn 七 handle IRQ event (unsigned int irqg, struct irgaction *action) 
| 
irgreturn 七 ret, retval = IROQ NONE; 
Unsigned int status = 0; 


if 【! {action->flags & IRQF DISABLED)) 
local irqg enable in hardirg!{}; 


do { 
trace irg handler entry{(irg, action), 
ret = action->handler {lirg, action->dev id)}; 
trace irg handler exit (irg, action, ret}); 


Switch (ret) { 
case IRQ WAKE THREAD: 
A 
sR 


ret = IFRQ HANDLED; 


| 
* 捕获 返回 值 为 WAKE_THREAD 的 驱动 程序 ， 但 是 并 不 创建 一 个 线程 销 数 
“i 
if (unlikely(!action->thread fn)) { 
warn no threadl(irqg, action),; 
break:; 


} 


i* 和 
* 为 这 次 中 断 唤醒 处 理 线程 。 万 一 线程 贿 清 且 被 杀 死 ， 我 们 仅仅 假装 已 经 处 理 了 该 中 
Pah 上 述 的 硬件 中 断 (hardirq) 处 理 程序 已 经 禁止 设备 中 断 ， 因 此 杜绝 irq 产生 
if (likely{!test Ditt(IRRTF DIED, 
gaction->thread flags})))} | 
Set bit (IRQOTF RUNTHREAD, &action->thread flags).; 
wake up process (action->thread); 


} 


/* Fall through to add to randommess */ 
case IRQ HANDLED: 


102 之 7 章 


status |= action->flags; 
break :; 


default ; 
break:; 


| 


retval |= ret; 
action = action- snext ; 
} while (action); 


if (status & IRQF SAMPLE RANDOM) 
add interrupt randomess (irg); 


local irg disable(}; 


return retval.; 


} 


首先 ， 因 为 处 理 器 禁止 中 断 ， 这 里 要 把 它们 打开 ， 就 必须 在 处 理 程序 注册 期 间 指 定 IRQF_ 
DISABLED 标志 。 回 想 一 下 ，IRQF_DISABLED 表示 处 理 程序 必须 在 中 断 禁 止 的 情况 下 运行 。 
接 下 来 ， 每 个 汐 在 的 处 理 程序 在 循环 中 依次 执行 。 如 果 这 条 线 不 是 共享 的 ， 第 一 次 执行 后 就 退 
出 和 循环。 否则， 所 有 的 处 理 程 序 都 要 被 执行 。 之 后 ， 如 果 在 注册 期 间 指 定 了 IRQF_SAMPLE_ 
RANDOM 标志 ， 则 还 要 调用 函数 add interrupt randomness()。 这 个 函数 使 用 中 源 间 隔 时 间 为 随 
机 数 产 生 器 产生 彤 。 最 后 ， 再 将 中 断 禁 止 (do_IRQ() 期 望 中 断 一 直 是 禁止 的 )， 函 数 返回 。 回 
到 do_IRQ()， 读 函数 做 清理 工作 并 返回 到 初始 入 口 点 ， 然 后 再 从 这 个 入 口 点 跳 到 函数 ret_from_ 
intr()。 

ret_from_intr() 例 程 类 似 于 初始 人 口 代码 ， 以 汇编 语言 编写 。 这 个 例 程 检查 重新 调度 是 否 正 
在 挂 起 〈 回 想 一 下 第 4 章 ， 这 意味 着 设置 了 need resched)。 如 果 重 新 调度 正在 挂 起 ， 而 且 内 核 
正在 返回 用 户 空间 〈 也 就 是 说 ， 中 断 了 用 户 进程 )， 那 么 ，schedule() 被 调用 。 如 果 内 核 正在 返回 
内 核 空 间 〈 也 就 是 说 ， 中 断 了 内 核 本 身 )， 只 有 在 preempt_count 为 0 时，schedule() 才 会 被 调用 ， 
否则 ， 抢 占 内 核 便 是 不 安全 的 。 在 schedule0 返回 之 后 ， 或 者 如 果 没 有 挂 起 的 工作 ， 那 么 ， 原 来 
的 寄存 器 被 恢复 ， 内 核 恢复 到 曾经 中 断 的 点 。 

在 x86 上 ， 初 始 的 汇编 例 程 位 于 arch/x86/kernel/entry 64.9 (文件 entry_32.S 对 应 32 位 的 
x86 体系 架构 )，C 方法 位 于 arch/x86/kernel/irq.c。 其 他 所 支持 的 结构 与 此 类 似 。 


7.8 /proc/interrupts 


procfs 是 一 个 虚拟 文件 系统 ， 它 只 存在 于 内 核 内 存 ， 一 般 安装 于 /proc 目录 。 在 procfs 中 
读 写 文件 都 要 调用 内 核 国 数 ， 这 些 国 数 模拟 从 真实 文件 中 读 或 写 。 与 此 相关 的 例子 是 /proc/ 
interrupts 文件 ， 该 文件 存放 的 是 系统 中 与 中 断 相 关 的 统计 信息 。 下 面 是 从 单 处 理 器 PC 上 输出 的 
信息 : 
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CAPUDO 


0 3602371 RT-PIC timer 
1: 3 人 0448 基 工 = 也 工 蕊 i80#2 
2; 0 XT-PIC cascade 
是 : 2 日 9466 XAT-PIC uheci-hed, etho 
5: 0 XT-PIC EMU10KI1 
12: 85077 XT-PIC uhci-hcd 
15: 24571 #4T=EPIC aicTxxx 
NMI: 0 
LOC: 3602236 
ERR: 0 


第 1 列 是 中 断 线 。 在 这 个 系统 中 ， 现 有 的 中 断 号 为 0 一 2、4、5、12 及 15。 这 里 没有 显示 
没有 安装 处 理 程序 的 中 断 线 。 第 2 列 是 一 个 接收 中 断 数 目的 计数 器 。 事 实 上 ， 系 统 中 的 每 个 处 理 
器 都 存在 这 样 的 列 ， 但 是 ， 这 个 机 器 只 有 一 个 处 理 器 。 我 们 看 到 ， 时 钟 中 断 已 接收 3602371 次 
中 断 弓 ， 这 里 ， 声 卡 (EMU10K1) 没有 接收 一 次 中 断 〈 这 表示 机 器 启动 以 来 还 没有 使 用 它 )。 第 
3 列 是 处 理 这 个 中 断 的 中 断 控 制 器 。XT-PIC 对 应 于 标准 的 PC 可 编程 中 断 控制 器 。 在 具有 IO 
APIC 的 系统 上 ， 大 多 数 中 断 会 列 出 ID-APIC-level 或 I0-APIC-edge， 作 为 自己 的 中 断 控制 器 。 
最 后 一 列 是 与 这 个 中 断 相关 的 设备 名 字 。 这 个 名 字 是 通过 参数 devname 提供 给 函数 request_irq() 
的 ， 前 面 已 讨论 过 了 。 如 果 中 断 是 共享 的 〈 例 子 中 的 4 号 中 断 就 是 这 种 情况 )， 则 这 条 中 断 线 上 
注册 的 所 有 设备 都 会 列 出 来 。 

对 于 想 深 入 探究 procfs 内 部 的 人 来 说 ，procfs 代码 位 于 fs/proc 中 。 不 必 惊 讶 ， 提 供 /proc/ 
interrupts 的 函数 是 与 体系 结构 相关 的 ， 叫 做 show_interrupts()。 


7.9 中 断 控制 


Linux 内 核 提 供 了 一 组 接口 用 于 操作 机 器 上 的 中 断 状 态 。 这 些 接口 为 我 们 提供 了 能 够 禁止 当 
前 处 理 器 的 中 断 系 统 ， 或 屏蔽 掉 整 个 机 器 的 一 条 中 断 线 的 能 力 ， 这 些 例 程 都 是 与 体系 结构 相关 
的 ， 可 以 在 <asm/system.h> 和 <asm/irq.h> 中 找到 。 本 章 稍 后 给 出 的 表 7-2 是 接口 的 完整 列表 。 

一 般 来 说 ， 控 制 中 断 系 统 的 原因 归根 结 底 是 需要 提供 同步 。 通 过 禁止 中 汤 ， 可 以 确保 某 个 中 
断 处 理 程序 不 会 抢占 当前 的 代码 。 此 外 ， 禁 止 中 断 还 可 以 禁止 内 核 抢占 。 然 而 ， 不 管 是 禁止 中 断 
还 是 禁止 内 核 抢占 ， 都 没有 提供 任何 保护 机 制 来 防止 来 自 其 他 处 理 器 的 并 发 访问 。Linux 支持 多 
处 理 器 ， 因 此 ， 内 核 代 码 一 般 都 需要 获取 某 种 锁 ， 防 止 来 自 其 他 处 理 器 对 共 语 数据 的 并 发 访问 。 
获取 这 些 锁 的 同时 也 伴随 着 禁止 本 地 中 断 。 锁 提供 保护 机 制 ， 防 止 来 自 其 他 处 理 器 的 并 发 访问 ， 
而 禁止 中 断 提 供 保护 机 制 ， 则 是 防止 来 自 其 他 中 断 处 理 程 序 的 并 发 访问 。 第 9 章 和 第 10 章 着 重 
讨论 同步 的 各 种 问题 及 其 对 策 。 因 此 ， 必 须 理 解 内 核 中 断 的 控制 接口 。 


7.9.1 禁止 和 激活 中 断 
用 于 禁止 当前 处 理 器 仅仅 是 当前 处 理 器 ) 上 的 本 地 中 上 断 ， 随 后 又 激活 它们 的 语 名 为 


担 ” 作 为 一 个 练习 ， 读 过 第 11 章 后 ， 你 能 在 知道 时 钟 产 生 的 中 断 次 数 的 情况 下 说 出 系统 已 经 工作 了 多 和 久 了 吗 〈 根 
据 HZ 值 ) ? 知道 时 钟 中 断 发 生 了 多 少 次 吗 ? 
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local irg disable(); 

/* 禁止 中 断 */ 

local irdg enable!(); 

这 两 个 国 数 通 币 以 单个 汇编 指令 来 实现 〈 当 然 ， 这 依赖 于 体系 结构 )。 实 际 上 ， 在 x86 中 ， 
local irq_discable() 仅仅 是 cli 指令， 而 local irq enable() 只 不 过 是 sti 指令 。cli 和 sti 分 别 是 对 
clear 和 set 区 许 中 断 (allow interrupt) 标志 的 汇编 调用 。 换 名 话说 ， 在 发 出 中 断 的 处 理 器 上 ， 它 
们 将 禁止 和 激活 中 断 的 传递 。 

如 有 要 人 在 调 用 local_irq_discable0 例 程 之 前 已 经 禁止 了 中 断 ， 那 么 该 例 程 往往 会 带 来 潜在 的 危 
险 ; 同样 相应 的 local_irq_enable() 例 程 也 存在 潜在 危险 ， 因 为 它 将 无 条 件 地 激活 中 断 ， 尽 管 这 些 
中 断 可 能 在 开始 时 就 是 关闭 的 。 所 以 我 们 需要 一 种 机 制 把 中 断 恢 复 到 以 前 的 状态 而 不 是 简单 地 禁 
止 或 激活 。 内 核 普遍 关心 这 点 是 因为 ， 内 核 中 一 个 给 定 的 代码 路 径 既 可 以 在 中 断 激活 的 情况 下 达 
到 ， 也 可 以 在 中 断 禁 止 的 情况 下 达到 ， 这 取决 于 具体 的 调用 链 。 例 如 ， 想 象 一 下 前 面 的 代码 片段 
是 一 个 大 函数 的 组 成 部 分 。 这 个 函数 被 另外 两 个 函数 调用 : 其 中 一 个 函数 禁止 中 断 ， 而 另 一 个 国 
数 不 禁 止 中 断 。 因 为 随 着 内 核 的 不 断 增长 ， 要 想 知 道 到 达 这 个 国 数 的 所 有 代码 路 径 将 变 得 越 来 越 
困难 ， 因 此 ， 在 禁止 中 断 之 前 保存 中 断 系 统 的 状态 会 更 加 安全 一 些 。 相 反 ， 在 准备 激 话 中 断 时 ， 
只 需 把 中 断 恢 复 到 它们 原来 的 状态 。 


unsigned long flags; 


local irqg save{lflags);  /* 禁止 中 断 */ 
ie a ; _/* 中 断 被 恢复 到 它们 原来 的 状态 */ 

这 些 方法 至 少 部 分 要 以 宏 的 形式 实现 ， 因 此 表面 上 flags 参数 (这 些 参 数 必须 定义 为 
unsigned long 类 型 ) 是 以 值 传递 的 。 该 参数 包含 具体 体系 结构 的 数据 ， 也 就 是 包含 中 断 系统 的 状 
态 。 至 少 有 一 种 体系 结构 把 栈 信息 与 值 相 结合 (SPARC)， 因 此 fiags 不 能 传递 给 另 一 个 函数 〈 特 
别 是 它 必 须 驻 留 在 同一 栈 帧 中 )。 基 于 这 个 原因 ， 对 local_irq_save() 和 对 local_irq_restore() 的 调 
用 必须 在 同一 个 函数 中 进行 。 

前 面 的 所 有 函数 既 可 以 在 中 断 中 调用 ， 也 可 以 在 进程 上 下 文中 调用 。 
“不 再 使 用 全 局 的 cli() 

以 前 的 内 核 中 提供 了 一 种 “能 够 禁止 系统 中 所 有 处 理 器 上 的 中 断 ” 方 法 。 而 且 ， 如 果 另 
。 一 个 处 理 器 调用 这 个 方法 ， 那 么 它 就 不 得 不 等 待 ， 直 到 中 断 重新 被 激活 才能 继续 执行 。 这 个 
5 函数 就 是 cli 站 )， 相 应 的 滞 活 中 断 函 数 为 sti() 一 一 虽然 适用 于 所 有 体系 结构 ， 但 完全 以 x86 为 
We 这 些 接口 在 2.5 版 本 开发 期 间 被 取消 了 ， 相 应 地 ， 所 有 的 中 断 同 步 现在 必须 结合 使 用 

， 本 地 中 断 控制 和 自 旋 锁 〈 在 第 9 章 中 进行 讨论 )。 这 就 意味 着 ， 为 了 确保 对 共享 数据 的 互 斥 访 
， 间 ， 以 前 代码 仅仅 需要 通过 全 局 禁止 中 断 达 到 互 斥 ， 而 现在 则 需要 多 做 些 工作 了 。 

以 前 ， 驱 动 程序 编写 者 可 能 假定 在 他 们 的 中 断 处 理 程序 中 ， 任 何 访问 共享 数据 地 方 都 可 
。 以 使 用 cli0 提供 互 斥 访问 ， cli() 调用 将 确保 没有 其 他 的 中 断 处 理 程序 (因而 只 有 它们 特定 的 
;处 理 程 序 ) 会 运行 。 此 外 ， 如 果 另 一 个 处 理 器 进入 了 cli 保 护 区 ， 那 么 它 不 可 能 继续 运行 ， 直 

到 原来 的 处 理 器 退出 它们 的 cli0 保护 区 ， 并 调用 了 sti0 后 才能 继续 运行 。 


re 


和 


取消 全 局 cliO 有 不 少 优 点 。 首先 ， 强 制 驱 动 程序 编写 者 实现 真正 的 加 锁 。 要 知道 具有 特 
。 定 目的 细 粒 度 锁 比 全 局 锁 要 快 许多 ， 而 且 也 完全 吻合 cli0 的 使 用 初 囊 。 其 次 ， 这 也 使 得 很 多 
.代码 更 具 流 线 型 ， 避 免 了 代码 的 成 敌 布 局 。 所 以 由 此 得 到 的 中 断 系 统 更 简单 也 更 易于 理解 。 


7.9.2 ”禁止 指定 中 断 线 


在 前 面 的 内 容 中 ， 我 们 看 到 了 禁止 整个 处 理 器 上 所 有 中 断 的 函数 。 在 某 些 情况 下 ， 只 禁止 
整个 系统 中 一 条 特定 的 中 断 线 就 够 了 。 这 就 是 所 谓 的 屏蔽 抒 (masking out) 一 条 中 断 线 。 作 为 例 
子 ， 你 可 能 想 在 对 中 断 的 状态 操作 之 前 禁止 设备 中 断 的 传递 。 为 此 ，Linux 提供 了 四 个 接口 : 


void disable irglunsigned int irqg); 

void disable irg nosync{unseigned int irq); 

void enable irqlunsigned int irq); 

volid synchronize irgq(lunsigqned int irqg);} 

前 两 个 函数 禁止 中 断 控制 器 上 指定 的 中 断 线 ， 即 禁止 给 定 中 断 问 系统 中 所 有 处 理 器 的 传递 。 
另外， 函数 只 有 在 当前 正在 执行 的 所 有 处 理 程序 完成 后 ，disable_irq() 才能 返回 。 因 此 ， 调 用 者 
不 仅 要 确保 不 在 指定 线 上 传递 新 的 中 断 ， 同 时 还 要 确保 所 有 已 经 开始 执行 的 处 理 程 序 已 全 部 退 
出 。 函 数 disable_irq_nosync() 不 会 等 待 当 前 中 断 处 理 程序 执行 完毕 

国 数 synchronize riq0 等 待 一 个 特定 的 中 断 处 理 程 序 的 退出 。 如 果 该 处 理 程序 正在 执行 ， 那 
么 该 函数 必须 退出 后 才能 返回 。 

对 这 些 函 数 的 调用 可 以 代 套 。 但 要 记 住 在 一 条 指定 的 中 断 线 上 ， 对 disable_irq() 或 disable_ 
irq_nosync() 的 每 次 调用 ， 都 需要 相应 地 调用 一 次 enable irq0。 只 有 在 对 enable_irq0 完成 最 后 一 
次 调用 后 ， 才 真正 重新 激 话 了 中 断 线 。 例 如 ， 如 果 disable_irq0 被 调用 了 两 次 ， 那 么 直到 第 二 次 
调用 enable_irq0 后 ， 才 能 真正 地 激活 中 断 线 。 

所 有 这 三 个 国 数 可 以 从 中 断 或 进程 上 下 文中 调用 ， 而 且 不 会 睡眠 。 但 如 果 从 中 断 上 下 文中 调 
用 ， 就 要 特别 小 心 ! 例如 ， 当 你 正在 处 理 一 条 中 断 线 时 ， 并 不 想 激活 它 〈 回 想 当 某 个 处 理 程序 的 
中 断 线 正在 被 处 理 时 ， 它 被 屏蔽 掉 )。 

禁止 多 个 中 断 处 理 程序 共享 的 中 断 线 是 不 合适 的 。 禁 止 中 断 线 也 就 禁止 了 这 条 线 上 所 有 设备 
的 中 断 传递 。 因 此 ， 用 于 新 设备 的 驱动 程序 应 该 倾向 于 不 使 用 这 些 接口 9。 根 据 规 范 ，PCI 设备 
必须 支持 中 断 线 共享 ， 因 此 ， 它 们 根本 不 应 该 使 用 这 些 接口 。 所 以 ，disable_irq0 及 其 相关 函数 
在 老式 传统 设备 〈 如 PC 并 口 ) 的 驱动 程序 中 更 容易 被 找到 。 


7.9.3 ”中断 系统 的 状态 


通常 有 必要 了 解 中 断 系统 的 状态 (如 中 断 是 禁止 的 还 是 激活 的 )， 或 者 你 当前 是 否 正 处 于 中 
断 上 下 文 的 执行 状态 中 。 

宏 irqs_disable( 定义 在 <asm/system.h> 中 。 如 果 本 地 处 理 器 上 的 中 断 系 统 被 禁止 ， 则 它 返 

日 很 多 老式 设备 ， 尤 其 是 ISA 设备 ， 不 提供 方法 检测 它们 是 否 产生 了 中 断 。 因 为 这 一 点 ，ISA 的 中 断 线 常常 不 


能 共享 。 由 于 PCI 规范 要 求 中 断 共 享 ， 因 此 ， 现 代 基 于 PCI 的 设备 支持 中 断 共 享 。 在 当代 计算 机 中 ， 几 乎 所 
有 的 中 断 线 都 可 以 共享 。 
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回 非 0 ; 否则 返回 0。 
在 <linux/hardirq.h> 中 定义 的 两 个 宏 提 供 一 个 用 来 检查 内 核 的 当前 上 下 文 的 接口 ， 它 们 是 : 


in interrupt () 

in irg') 

第 一 个 宏 最 有 用 : 如 采 内 核 处 于 任何 类 型 的 中 断 处 理 中 ， 它 返回 非 0， 说 明 内 核 此 刻 正在 执 
行 中 断 处 理 程序 ， 或 者 正在 执行 下 半 部 处 理 程序 。 宏 in_irq0 只 有 在 内 核 确实 正在 执行 中 断 处 理 
程序 时 才 返 回 非 0。 

通常 情况 下 ， 你 要 检查 自己 是 否 处 于 进程 上 下 文中 。 也 就 是 说 ， 你 希望 确保 自己 不 在 中 断 上 
下 文中 。 这 种 情况 很 常见 ， 因 为 代码 要 做 一 些 像 睡眠 这 样 只 能 从 进程 上 下 文中 做 的 事 。 如 果 in_ 
interruptO 返回 0， 则 此 刻 内 核 处 于 进程 上 下 文中 。 

是 的 ， 名 字 有 点 混 消 ， 但 可 以 对 它们 的 含义 稍 加 区 别 。 表 7-2 是 中 断 控 制 方法 和 其 描述 的 
摘要 。 

表 7-2 中断 控制 方法 的 列表 


蝎 数 说 明 
local irq disable() 禁止 本 地 中 断 传递 
local irq_enablef) 激活 本 地 中 断 传 递 
local irq save() 保存 本 地 中 断 传递 的 当前 状态 ， 然 后 禁止 本 地 中 断 传 递 
local_irq_restore{) 恢复 本 地 中 断 传 递 到 给 定 的 状态 
disable_irg() 禁止 给 定 中 断 线 ， 并 确保 该 函数 返回 之 前 在 读 中 断 线 上 没有 处 理 程 序 在 运行 
disable irq nosync() 禁止 给 定 中 断 线 
enable irq() 激活 给 定 中 断 线 
irqs_disabled() 如 果 本 地 中 断 传递 被 禁止 ， 则 返回 非 0 ; 否则 返回 0 
in interruptO) 如 果 在 中 断 上 下 文中 ， 则 返回 非 0 ; 如 果 在 进程 上 下 文中 ， 则 返回 0 
in irg0) 如 果 当 前 正在 执行 中 断 处 理 程序 ， 则 返回 非 0 ; 否则 返回 0 
7.10 ”小结 


本 章 介 绍 了 中 断 ， 它 是 一 种 由 设备 使 用 的 硬件 资源 异步 向 处 理 器 发 信号 。 实 际 上 ， 中 断 就 是 
由 硬件 来 打 断 操作 系统 。 

大 多 数 现 代 硬 件 都 通过 中 断 与 操作 系统 通信 。 对 给 定 硬件 进行 管理 的 驱动 程序 注册 中 断 处 理 
程序 ， 是 为 了 啊 应 并 处 理 来 自 相 关 硬 件 的 中 断 。 中 断 过 程 所 做 的 工作 包括 应 答 并 重新 设置 硬件 ， 
从 设备 拷贝 数据 到 内 存 以 及 反之 ， 处 理 硬 件 请 求 ， 并 发 送 新 的 硬件 请 求 。 

内 核 提 供 的 接口 包括 往 册 和 注销 中 断 处 理 程序 、 禁 止 中 断 、 屏 项 中 断 线 以 及 检查 中 断 系统 的 
状态 。 表 7-2 提供 了 这 些 函 数 的 概述 。 

因为 中 断 打 断 了 其 他 代码 的 执行 (进程 ， 内 核 本 身 ， 甚 至 其 他 中 断 处 理 程 序 )， 它 们 必须 赶 
快 执行 完 。 但 通常 是 还 有 很 多 工作 要 做 。 为 了 在 大 量 的 工作 与 必须 快速 执行 之 间 求 得 一 种 平衡 ， 
内 核 把 处 理 中 断 的 工作 分 为 两 半 。 中 断 处 理 程 序 ， 也 就 是 上 半 部 在 本 章 讨 论 。 现 在 ， 让 我 们 了 解 
下 半 部 。 
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下 半 部 和 推 后 执行 的 工作 


在 第 7 章 中 ， 我 们 讨论 了 内 核 为 处 理 中 断 而 提供 的 中 断 处 理 程序 机 制 。 中 断 处 理 程序 是 内 棱 
中 很 有 用 的 《实际 上 也 是 必 不 可 少 的 ) 部 分 。 但 是 ， 由 于 本 身 存 在 一 些 局 限 ， 所 以 它 只 能 完成 整 
个 中 断 处 理 流 程 的 上 半 部 分 。 这 些 局 限 包括 : 

* 中断 处 理 程 序 以 异步 方式 执行 ， 并 且 它 有 可 能 会 打 断 其 他 重要 代码 〈 甚 至 包 插 其 他 中 断 处 

理 程序 ) 的 执行 。 因 此 ， 为 了 避免 被 打 断 的 代码 停止 时 间 过 长 ， 中 断 处 理 程序 应 该 执行 得 

越 快 越 好 。 

“如 果 当 前 有 一 个 中 断 处理 程 序 正 在 执行 ， 在 最 好 的 情况 下 (如果 了 IRQF DISABLED 设 

有 被 设置 )， 与 该 中 断 同 级 的 其 他 中 断 会 被 屏蔽 ， 在 最 坏 的 情况 下 如 果 设 置 了 IRQF_ 

DISABLED)， 当 前 处 理 器 上 所 有 其 他 中 断 都 会 被 屏蔽 。 因 为 禁止 中 断后 硬件 与 操作 系统 

无 法 通信 ， 因 此 ， 中 断 处 理 程序 执行 得 越 快 越 好 。 

* 由 于 中 断 处 理 程序 往往 需要 对 硬件 进行 操作 ， 所 以 它们 通常 有 很 高 的 时 限 要 求 。 

* 中 断 处 理 程序 不 在 进程 上 下 文中 运行 ， 所 以 它们 不 能 阻塞 。 这 限制 了 它们 所 做 的 事情 。 

现在 ， 为 什么 中 断 处 理 程序 只 能 作为 整个 硬件 中 断 处 理 流 程 一 部 分 的 原因 就 很 明显 了 。 操 作 
系统 必须 有 一 个 快速 、 异 步 、 简 单 的 机 制 负责 对 硬件 做 出 迅速 响应 并 完成 那些 时 间 要 求 很 严格 的 
操作 。 中 断 处 理 程序 很 适合 于 实现 这 些 功 能 ， 可 是 ， 对 于 那些 其 他 的 、 对 时 间 要 求 相 对 宽松 的 任 
务 ， 就 应 该 推 后 到 中 断 被 激 话 以 后 再 去 运行 。 

这 样 ， 整 个 中 断 处 理 流 程 就 被 分 为 了 两 个 部 分 ， 或 叫 两 半 。 第 一 个 部 分 是 中 断 处 理 程 序 (上 
半 部 )， 就 像 我 们 在 第 7 章 讨论 的 那样 ， 内 核 通 过 对 它 的 异步 执行 完成 对 硬件 中 断 的 即时 响应 。 
在 本 章 中 ， 我 们 要 研究 的 是 中 断 处 理 流 程 中 的 另外 那 一 部 分 ， 下 半 部 (bottom halves )。 


8.1 下 半 部 


下 半 部 的 任务 就 是 执行 与 中 断 处 理 密 切 相关 但 中 断 处 理 程序 本 身 不 执行 的 工作 。 在 理想 的 情 
况 下 ， 最 好 是 中 断 处 理 程序 将 所 有 工作 都 交 给 下 半 部 分 执行 ， 因 为 我 们 希望 在 中 断 处 理 程 序 中 完 
成 的 工作 越 少 越 好 〈 也 就 是 越 快 越 好 )。 我 们 期 望 中 断 处 理 程序 能 够 尽 可 能 快 地 返回 。 

但 是 ， 中 断 处 理 程 序 注定 要 完成 一 部 分 工作 。 例 如 ， 中 断 处 理 程序 几乎 都 需要 通过 操作 硬件 
对 中 断 的 到 达 进 行 确认 ， 有 时 它 还 会 从 硬件 拷贝 数据 。 因 为 这 些 工作 对 时 间 非 常 敏感 ， 所 以 只 能 
靠 中 断 处 理 程 序 自己 去 完成 。 

剩 下 的 几乎 所 有 其 他 工作 都 是 下 半 部 执行 的 目标 。 例 如 ， 如 果 你 在 上 半 部 中 把 数据 从 硬件 拷 
贝 到 了 内 存 ， 那 么 当然 应 该 在 下 半 部 中 处 理 它们 。 遗 憾 的 是 ， 并 不 存在 严格 明确 的 规定 来 说 明 到 
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底 什么 任务 应 该 在 哪个 部 分 中 完成 一 一 如 何 做 决定 完全 取决 于 驱动 程序 开发 者 自己 的 判断 。 尽 管 
在 理论 上 不 存在 什么 错误 ， 但 轻率 的 实现 效果 往往 不 很 理想 。 记 住 ， 中 断 处 理 程序 会 异步 执行 
并 且 在 最 好 的 情况 下 它 也 会 锁定 当前 的 中 断 线 。 因 此 将 中 断 处 理 程序 持续 执行 的 时 间 缩 短 到 最 小 
程度 显得 非常 重要 。 对 于 在 上 半 部 和 下 半 部 之 则 划分 工作 ， 尽 管 不 存在 某 种 严格 的 规则 ， 但 还 是 
有 一 些 提示 可 供 便签 : 

* 如 果 一 个 任务 对 时 间 非 常 敏感 ， 将 其 放 在 中 断 处 理 程序 中 执行 。 

* 如 果 一 个 任务 和 硬件 相关 ， 将 其 放 在 中 断 处 理 程序 中 执行 。 

"如 果 一 个 任务 要 保证 不 被 其 他 中 断 〈 特 别 是 相同 的 中 断 ) 打 断 ， 将 其 放 在 中 断 处 理 程序 中 

执行 。 

* 其 他 所 有 任务 ， 考 虑 放置 在 下 半 部 执行 。 

当 你 开始 稼 试 写 目 己 的 驱动 程序 的 时 候 ， 读 一 下 别人 的 中 断 处理 程 序 和 相应 的 下 半 部 可 能 会 
让 你 受益 匪 窗 。 在 决定 怎样 把 你 的 中 断 处 理 流程 中 的 工作 划分 到 上 半 部 和 下 半 部 中 去 的 时 候 ， 问 
问 目 己 什么 必须 放 进 上 半 部 而 什么 可 以 放 进 下 半 部 。 通 常 ， 中 断 处 理 程 序 要 执行 得 越 快 越 好 。 


8.1.1 为 什么 要 用 下 半 部 


理解 为 什么 要 让 工作 推 后 执行 以 及 在 什么 时 候 推 后 执行 非常 关键 。 你 希望 尽量 减少 中 断 处 
理 程序 中 需要 完成 的 工作 量 ， 因 为 它 在 运行 的 时 候 ， 当 前 的 中 断 线 在 所 有 处 理 器 上 都 会 被 屏蔽 。 
更 糟糕 的 是 ， 如 有 果 一 个 处 理 程序 是 耻 QF_DISABLED 类 型 ， 它 执行 的 时 候 会 禁止 所 有 本 地 中 断 
(而 且 把 本 地 中 断 线 全 局 地 屏蔽 掉 )。 而 缩短 中 断 被 屏蔽 的 时 间 对 系统 的 响应 能 力 和 性 能 都 至 关 重 
要 。 再 加 上 中 断 处 理 程序 要 与 其 他 程序 (甚至 是 其 他 的 中 断 处 理 程序 ) 异步 执行 ， 所 以 很 明显 ， 
我 们 必须 尽力 缩短 中 断 处 理 程序 的 执行 。 解 决 的 方法 就 是 把 一 些 工作 放 到 以 后 去 做 。 

但 有 具体 放 到 以 后 什么 时 候 去 做 呢 ? 在 这 里 ， 以 后 仅仅 用 来 强调 不 是 马上 而 已 ， 理 解 这 一 点 相 
当 重 要 。 下 半 部 并 不 需要 指明 一 个 确切 时 间 ， 只 要 把 这 些 任务 推迟 一 点 ， 让 它们 在 系统 不 太 繁忙 
并 且 中 断 恢复 后 执行 就 可 以 了 。 通 常 下 半 部 在 中 断 处 理 程序 一 返回 就 会 马上 运行 。 下 半 部 执行 的 
关键 在 于 当 它 们 运行 的 时 候 ， 允 许 响应 所 有 的 中 断 。 

.不 仅仅 是 Linux， 许 多 操作 系统 也 把 处 理 硬件 中 断 的 过 程 分 为 两 个 部 分 。 上 半 部 分 简单 快 
速 ， 执 行 的 时 候 禁 止 一 些 或 者 全 部 中 断 。 下 半 部 分 无 论 具 体 如 何 实 现 ) 稍 后 执行 ， 而 且 执行 期 
间 可 以 响应 所 有 的 中 断 。 这 种 设计 可 使 系统 处 于 中 断 屏 蔽 状态 的 时 间 尽 可 能 的 短 ， 以 此 来 提高 系 
统 的 啊 应 能 力 。 


8.1.2 下 半 部 的 环境 


和 上 半 部 只 能 通过 中 断 处 理 程序 实现 不 同 ， 下 半 部 可 以 通过 多 种 机 制 实现 。 这 些 用 来 实现 下 
半 部 的 机 制 分 别 由 不 同 的 接口 和 子 系统 组 成 。 在 第 7 章 中 ， 我 们 了 解 到 实现 中 断 处 理 程序 的 方法 
只 有 一 种 ,但 在 本 章 中 你 会 发 现 ， 实 现 一 个 下 半 部 会 有 许多 不 同 的 方法 。 实 际 上 ， 在 Linux 发 


但 在 Linux 中 ， 由 于 上 半 部 从 来 都 只 能 通过 中 断 处 理 程序 实现 ， 所 以 它 和 中 断 处 理 程序 可 以 说 是 等 价 的 。 一 一 
译 者 注 


展 的 过 程 中 曾经 出 现 过 多 种 下 半 部 机 制 。 让 人 备 受 困扰 的 是 ， 其 中 不 少 机 制 名 字 起 得 很 相像 ， 甚 
至 还 有 一 些 机 制 名 字 起 得 词 不 达意 。 这 就 需要 专门 的 程序 员 来 给 下 半 部 命名 。 

在 本 章 中 ， 我 们 将 要 讨论 2.6 版 本 的 内 核 中 的 下 半 部 机 制 是 如 何 设计 和 实现 的 。 同 时 我 们 也 
会 讨论 怎么 在 自己 编写 的 内 核 代码 中 使 用 它们 。 而 那些 过 去 使 用 的 、 已 经 废除 了 有 一 段 时 间 的 机 
制 ， 由 于 曾经 闻名 遐 偿 ， 所 以 在 相关 的 时 候 我 们 还 是 会 有 所 提 及 。 

1.“ 下 半 部 ”的 起 源 

最 早 的 Linux 只 提供 “bottom half” 这 种 机 制 用 于 实现 下 半 部 。 这 个 名 字 在 那 时 毫 无 异 义 ， 
因为 当时 它 是 将 工作 推 后 的 唯一 方法 。 这 种 机 制 也 被 称 为 “BH"”， 我 们 现在 也 这 人 么 叫 它 ， 以 避免 
和 “下 半 部 ”这 个 通用 词汇 混淆 。 像 过 往 的 那 段 美好 岁月 中 的 许多 东西 一 样 ，BH 接口 也 非常 简 
单 。 它 提供 了 一 个 静态 创建 、 由 32 个 bottom halves 组 成 的 链表 。 上 半 部 通过 一 个 32 位 整数 中 
的 一 位 来 标识 出 哪个 bottom half 可 以 执行 。 每 个 BH 都 在 全 局 范围 内 进行 同步 。 即 使 分 属于 不 同 
的 处 理 器 ， 也 不 允许 任何 两 个 bottom half 同时 执行 。 这 种 机 制 使 用 方便 却 不 够 灵活 ， 简 单 却 有 
性 能 瓶颈 。 

2. 任务 队列 

不 入， 内 核 开 发 者 们 就 引入 了 任务 队列 (task queue) 机 制 来 实现 工作 的 推 后 执行 ， 并 用 它 
来 代替 BH 机 制 。 内 核 为 此 定义 了 一 组 队列 ， 其 中 每 个 队列 都 包含 一 个 由 等 待 调用 的 函数 组 成 链 
表 。 根 据 其 所 处 队列 的 位 置 ， 这 些 函 数 会 在 某 个 时 刻 执 行 。 驱 动 程序 可 以 把 它们 自己 的 下 半 部 注 
册 到 合适 的 队列 上 去 。 这 种 机 制 表现 得 还 不 错 ， 但 仍 不 够 灵活 ， 没 法 代替 整个 BH 接口 。 对 于 一 
些 性 能 要 求 较 高 的 子 系 统 ， 像 网 络 部 分 ， 它 也 不 能 胜任 。 

3. 软 中 断 和 tasklet 

在 2.3 这 个 开发 版 本 中 ， 内 核 开 发 者 引入 了 软 中 断 〈softirqs) 唱和 tasklet。 如 果 无 须 考虑 和 
过 去 开发 的 驱动 程序 兼容 的 话 ， 软 中 断 和 tasklet 可 以 完全 代替 BH 接口 日 。 软 中 断 是 一 组 静态 定 
义 的 下 半 部 接口 ， 有 32 个 ， 可 以 在 所 有 处 理 器 上 同时 执行 一 一 即使 两 个 类 型 相同 也 可 以 。tasklet 
这 一 名 称 起 得 很 糟糕 ， 让 人 费解 ， 它 们 是 一 种 基于 软 中 断 实 现 的 灵活 性 强 、 动 态 创建 的 下 半 部 实 
现 机 制 号 。 两 个 不 同类 型 的 tasklet 可 以 在 不 同 的 处 理 器 上 同时 执行 ， 但 类 型 相同 的 tasklet 不 能 同 
时 执行 。tasklet 其 实 是 一 种 在 性 能 和 易 用 性 之 间 寻 求 平衡 的 产物 。 对 于 大 部 分 下 半 部 处 理 来 说 ， 
用 tasklet 就 足够 了 ， 像 网 络 这 样 对 性 能 要 求 非常 高 的 情况 才 需 要 使 用 软 中 断 。 可 是 ， 使 用 软 中 
断 需 要 特别 小 心 ， 因 为 两 个 相同 的 软 中 断 有 可 能 同时 被 执行 。 此 外 ， 软 中 断 还 必须 在 编译 期 间 就 
进行 静态 注册 。 与 此 相反 ，tasklet 可 以 通过 代码 进行 动态 注册 。 

有 些 人 被 这 些 概念 彻底 搞 糊 涂 了 ， 他 们 把 所 有 的 下 半 部 都 当成 是 软件 产生 的 中 断 或 软 中 断 。 
换 甸 话说， 就 是 他 们 把 软 中 断 机 制 和 下 半 部 统统 都 叫 软 中 断 。 别 管 他 们 好 了 。 软 中 断 与 BH 和 
tasklet 并 可 其 名 。 


怠 ”这 里 的 软 中 断 与 第 4 章 实 现 系统 调用 所 提 到 的 软 中 断 【〈 准 确 地 说 读 叫 它 软 件 中 断 ) 指 的 是 不 同 的 概念 。 一 一 译 者 注 

全 把 BH 转 化 为 软 中 断 或 者 tasklet 并 不 是 轻而易举 的 事情 ， 因 为 BH 是 全 局 同步 的 ， 因 此 ， 在 执行 期 间 假 定 没 有 
其 他 BH 执行。 但是， 这 种 转化 最 终 还 是 在 内 核 2.5 中 实现 了 。 

合 “它们 和 进程 没有 一 点 关系 。 可 以 把 一 个 tasklet 当做 一 个 简单 易 用 的 软 中 断 。 
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在 开发 2.5 版 本 的 内 核 时 ，BH 接口 最 终 被 弃置 了 ， 所 有 的 BH 使 用 者 必须 转 而 使 用 其 他 下 
半 部 接口 。 此 外 ， 任 务 队列 接口 也 被 工作 队列 接口 取代 了 。 工 作 队 列 是 一 种 简单 但 很 有 用 的 方 
和 法， 它们 先 对 要 推 后 执行 的 工作 排队 ， 稍 后 在 进程 上 下 文中 执行 它们 。 稍 后 的 内 容 中 我 们 再 来 探 
究 它 们 。 

综 上 所 述 ， 在 2.6 这 个 当前 版 本 中 ， 内 核 提 供 了 三 种 不 同形 式 的 下 半 部 实现 机 制 : 软 中 断 、 
tasklets 和 工作 队列 。 内 核 过 去 曾经 用 过 的 BH 和 任务 队列 接口 ， 现 在 已 经 被 潭 设 在 记忆 中 了 。 


内 核定 时 器 

态 外 一 个 可 以 用 于 将 工作 推 后 执行 的 机 制定 内 核定 时 器。 不 像 本 草 到 目前 为 止 介绍 到 的 
所 有 这 些 机 制 ， 内 核定 时 器 把 操作 推迟 到 某 个 确定 的 时 人 间 眉 之 后 执行 。 也 就 是 说 ， 尽 管 本 章 
讨论 的 其 他 机 制 可 以 把 操作 推 后 到 除了 现在 以 外 的 任何 时 间 进 行 ， 但 是 当 你 必须 保证 在 一 个 
确定 的 时 间 段 过 去 以 后 再 运行 时 ， 你 应 该 使 用 内 核定 时 器 。 

较 之 本 章 讨 论 到 的 这 些 机 制 ， 定 时 器 还 有 一 些 其 他 功能 。 有 关 定 时 器 的 详细 内 容 在 第 11 章 
中 讨论 


4. 混乱 的 下 半 部 概念 

这 些 东西 确实 把 人 捞 得 很 误 乱 ， 但 它们 其 实 只 不 过 是 一 些 起 名 的 问题 ， 让 我 们 再 来 梳理 一 遍 。 

“下 半 部 bottom half)” 是 一 个 操作 系统 通用 词汇 ， 用 于 指 代 中 断 处 理 流 程 中 推 后 执行 的 
那 一 部 分 ， 之 所 以 这 样 命名 ， 是 因为 它 表 示 中 断 处 理 方 案 一 半 的 第 二 部 分 或 者 下 半 部 。 在 Linux 
中 ， 这 个 词 目 前 确实 就 是 这 个 含义 。 所 有 用 于 实现 将 工作 推 后 执行 的 内 核 机 制 都 被 称 为 “下 半 部 
机 制 "。 一 些 人 错误 地 把 所 有 的 下 半 部 机 制 都 叫做 “ 软 中 断 ” 真是 在 自 寻 烦恼 。 

“下 半 部 ”这 个 词 也 指 代 Linux 最 早 提供 的 那 种 将 工作 推 后 执行 的 实现 机 制 。 由 于 该 机 制 也 
被 岂 做 “BH”， 所 以 ， 我 们 就 使 用 它 的 这 个 名 称 ， 而 让 “下 半 部 ”这 个 词 仍然 保持 它 通常 的 含 
尺 。BH 机 制 很 早 以 前 就 被 反对 使 用 了 ， 在 2.5 版 内 核 中 ， 它 就 被 完全 去 除了 。 

当前 ， 有 三 种 机 制 可 以 用 来 实现 将 工作 推 后 执行 : 软 中 断 、tasklet 和 工作 队列 。tasklet 通过 
软 中 断 实 现 ， 而 工作 队列 与 它们 完全 不 同 。 表 8-1 揭示 了 下 半 部 机 制 的 演化 历程 。 


表 8-1 下 半 部 状态 
下 半 部 机 制 状 起 
BH 在 2.5 中 去 除 
任务 队列 (Task queues) 在 2.5 中 去 除 
软 中 断 《Softirq} 从 2.3 开始 5 人 
tasklet 从 2.3 开始 引 人 
工作 队列 《Work queues ) 从 2.5 开始 引 人 


在 搞 清楚 这 些 混乱 的 命名 之 后 ， 让 我 们 开始 具体 研究 各 个 机 制 。 


8.2 软 中 断 
我 们 的 讨论 从 实际 的 下 半 部 实现 一 一 软 中 断 方法 开始 。 软 中 断 使 用 得 比较 少 ; 而 tasklet 是 


和 


下 半 部 更 常用 的 一 种 形式 。 但 是 ， 由 于 tasklet 是 通过 软 中 断 实现 的 ， 所 以 我 们 先 来 研究 软 中 断 。 
软 中 断 的 代码 位 于 kernel/softirqc 文件 中 。 


8.2.1 软 中 断 的 实现 


软 中 断 是 在 编译 期 间 静 态 分 配 的 。 它 不 像 tasklet 那样 能 被 动态 地 注册 或 注销 。 软 中 断 由 
softirq_action 结构 表示 ， 它 定义 在 <linux/interrupt.h> 中 : 
struct softirdg action 1 


void {*action} (struct softirg action *});} 


}; 
kernel/softirq.c 中 定义 了 一 个 包含 有 32 个 该 结构 体 的 数组 。 
static struct softirg action softirg vec[NR SOFTIRQS]; 


每 个 被 注册 的 软 中 断 都 占据 该 数组 的 一 项 ， 因 此 最 多 可 能 有 32 个 软 中 断 。 注 意 ， 这 吓 一 个 
定 值 一 一 注册 的 软 中 断 数目 的 最 大 值 没 法 动态 改变 。 在 当前 版 本 的 内 核 中 ， 这 32 个 项 中 只 用 到 
9 个 名 。 

1. 软 中 断 处 理 程序 

软 中 断 处 理 程序 action 的 函数 原型 如 下 : 

void softirdq handler(struct softirg action *) 

当 内 核 运行 一 个 软 中 断 处 理 程 序 的 时 候 ， 它 就 会 执行 这 个 action 函数 ， 其 唯一 的 参数 为 指向 
相应 softirq_action 结构 体 的 指针 。 例 如 ， 如 果 my_softirq 指向 softirq_vec 数组 的 某 项 ， 那 么 内 
核 会 用 如 下 的 方式 调用 软 中 断 处 理 程 序 中 的 函数 : 

my_softirg->actiontmy softirq); 

当 你 看 到 内 核 把 整个 结构 体 都 传递 给 软 中 断 处 理 程序 而 不 是 仅仅 传递 数据 值 的 时 候 ， 你 可 能 
会 很 吃惊 。 这 个 小 技巧 可 以 保证 将 来 在 结构 体 中 加 入 新 的 域 时 ， 无 须 对 所 有 的 软 中 断 处 理 程 序 都 
进行 变动 。 如 果 需 要 ， 软 中 断 处 理 程序 可 以 方便 地 解析 它 的 参数 ， 从 数据 成 员 中 提取 数值 。 

一 个 软 中 断 不 会 抢占 另外 一 个 软 中 断 。 实 际 上 ， 唯 一 可 以 抢占 软 中 断 的 是 中 断 处 理 程序 。 不 
过 ， 其 他 的 软 中 断 〈 甚 至 是 相同 类 型 的 软 中 断 ) 可 以 在 其 他 处 理 器 上 同时 执行 。 

2. 执行 软 中 断 

一 个 注册 的 软 中 断 必 须 在 被 标记 后 才 会 执行 。 这 被 称 作 和 触发 软 中 断 (raising the softirq )。 通 
常 ， 中 断 处 理 程 序 会 在 返回 前 标记 它 的 软 中 断 ， 使 其 在 稍 后 被 执行 。 于 是 ， 在 合适 的 时 刻 ， 该 软 
中 断 就 会 运行 。 在 下 列 地 方 ， 待 处 理 的 软 中 断 会 锌 检查 和 执行 : 

“从 一 个 硬件 中 断代 码 处 返回 时 

“ 在 ksoftirqd 内 核 线程 中 

* 在 那些 显 式 检查 和 执行 待 处 理 的 软 中 断 的 代码 中 ， 如 网 络 子 系统 中 


日 ”大 部 分 驱动 程序 都 使 用 tasklet 来 实现 它们 的 下 半 部 。 我 们 将 在 下 面 的 内 容 中 看 到 ，tasklet 是 用 软 中 断 实现 的 。 
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不 管 是 用 什么 办 法 晚 起 ， 软 中 断 都 要 在 do_softirq() 中 执行 。 该 函数 很 简单 。 如 果 有 待 处 理 
的 软 中 断 ，do_softirq() 会 循环 遍历 每 一 个 ， 调 用 它们 的 处 理 程序 。 让 我 们 观察 一 下 do_softirq() 
经 过 简化 后 的 核心 部 分 : 


u32 pending; 


pending = local softirg pending(}; 
if (pending) 1 
struct softirg action *h; 


/* 重 设 待 处 理 的 位 图 */ 
Set softirg pending(0); 


h = softirg vec; 
do { 
if (pending & 1) 
h=>action(h):; 
h++» 
pending >>= 1;} 
} while (pending); 


以 上 摘录 的 是 软 中 断 处 理 的 核心 部 分 。 它 检查 并 执行 所 有 待 处 理 的 软 中 断 ， 具 体 要 做 的 
包括 : 

1) 用 局 部 变量 pending 保存 local_softirq_pending0 宏 的 返回 值 。 它 是 待 处 理 的 软 中 断 的 32 
位 位 图 一 一 如 果 第 n 位 被 设置 为 1!， 那 么 第 n 位 对 应 类 型 的 软 中 断 等 待 处 理 。 

2) 现在 待 处 理 的 软 中 断 位 图 已 经 被 保存 ， 可 以 将 实际 的 软 中 断 位 图 清 零 了 。 

3) 将 指针 h 指向 softirq_vec 的 第 一 项 。 

4) 如 果 pending 的 第 一 位 被 置 为 1， 则 h->action(h) 被 调用 。 

5) 指针 加 1， 所 以 现在 它 指向 softirq_vec 数组 的 第 二 项 。 

6) 位 掩 码 pending 布 移 一 位 。 这 样 会 丢弃 第 一 位 ， 然 后 让 其 他 各 位 依次 同 布 移动 一 个 位 置 。 
于 是 ， 原 来 的 第 二 位 现在 就 在 第 一 位 的 位 置 上 了 (依次 类 推 )。 

7) 现在 指针 指向 数组 的 第 二 项 ，pending 位 掩 码 的 第 二 位 现在 也 到 了 第 一 位 上 。 重 复 执行 
上 面 的 步骤 。 

8) 一 直 重 复 下 去 ， 直 到 pending 变 为 0， 这 表明 已 经 没有 待 处 理 的 软 中 断 了 ， 我 们 的 任务 
也 就 完成 了 。 注意 ， 这 种 检查 足以 保证 h 总 指向 softirq_vec 的 有 效 项 ， 因 为 pending 最 多 只 可 能 
设置 32 位 ， 循 环 最 多 也 只 能 执行 32 次 。 


日 ”实际 上 在 执行 此 步 操作 时 需要 禁止 本 地 中 断 。 但 在 这 个 简化 的 例子 中 被 省 略 了。 如 果 中 断 不 被 屏 芯 ， 在 保存 
位 图 和 清除 它 的 间 阶 ， 可 能 会 有 一 个 新 的 软 中 断 被 唤醒 ( 它 自然 也 就 会 等 待 处 理 )。 这 可 能 会 造成 对 此 待 处 理 
的 位 进行 不 应 读 的 清 0。 
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8.2.2 ”使 用 软 中 断 


软 中 断 保留 给 系统 中 对 时 间 要 求 最 严格 以 及 最 重要 的 下 半 部 使 用 。 目 前 ， 只 有 两 个 子 系统 
(网 络 和 SCSI) 直接 使 用 软 中 断 。 此 外 ， 内 核定 时 器 和 tasklet 都 是 建立 在 软 中 断 上 的 。 如 果 你 想 
加 人 一 个 新 的 软 中 断 ， 首 先 应 该 问 问 自己 为 什么 用 tasklet 实现 不 了 。tasklet 可 以 动态 生成 ， 由 于 
它们 对 加 锁 的 要 求 不 高 ， 所 以 使 用 起 来 也 很 方便 ， 而 且 它 们 的 性 能 也 非常 不 错 。 当 然 ， 对 于 时 间 
要 求 严 格 并 能 自己 高 效 地 完成 加 锁 工 作 的 应 用 ， 软 中 断 会 是 正确 的 选择 。 

1, 分 配 索引 

在 编译 期 间 ， 通 过 在 <linux/interrupt.h> 中 定义 的 一 个 枚 举 类 型 来 静态 地 声明 软 中 断 。 内 核 用 
这 些 从 0 开始 的 索引 来 表示 一 种 相对 优先 级 。 索 引号 小 的 软 中 断 在 索引 号 大 的 软 中 断 之 前 执行 。 

建立 一 个 新 的 软 中 断 必须 在 此 枚 举 类 型 中 加 入 新 的 项 。 而 加 入 时 ， 你 不 能 像 在 其 他 地 方 
一 样 ， 简 单 地 把 新 项 加 到 列表 的 末尾 。 相 反 ， 你 必须 根据 希望 赋予 它 的 优先 级 来 决定 加 入 的 位 
置 。 习 惯 上 ，HIL_ SOFTIRQ 通常 作为 第 一 项 ， 而 RCU_SOFTIRQ 作为 最 后 一 项 。 新 项 可 能 插 在 
BLOCK SOFTIRQ 和 TASKLET SOFTIRE 之 则 。 表 8-2 列举 出 了 已 有 的 tasklet 类 型 。 


表 8-2 tasklet 类 型 列 


tasklet 优先 级 | 软 中 断 描述 
HI_SOFTIRQ 优先 级 高 的 tasklets 
TIMER_SOFTIRQ 定时 器 的 下 半 部 
NET TX SOFTIRQ 。 发 送 网 络 数据 包 
NT RX SOFTIRO EC 
BLOCK SOFTIRQ 4 BLOCK 装置 
TASKLET_SOFTIRQ | 正常 优先 权 的 tasklets 
SCHED_SOFTIRQ ”6 | 调度 程度 
RTRs Ord | | IE 
RCU_SOFTIRQ RCU 锁定 


2. 注册 你 的 处 理 程序 

接着 ， 在 运行 时 通过 调用 open_softirq() 注册 软 中 断 处 理 程序 ， 该 函数 有 两 个 参数 : 软 中 断 
的 索引 号 和 处 理 国 数 。 如 网 络 子 系统 ， 在 net/coreldev.c 通过 以 下 方式 注册 自己 的 软 中 断 : 

open softirqg (NET TX SOFTIRQ, net tx action); 

open softirgq(NET RX SOFTIRQ, net rx action); 

软 中 断 处 理 程序 执行 的 时 候 ， 允 许 响应 中 断 ， 但 它 自 己 不 能 休眠 。 在 一 个 处 理 程序 运行 的 时 
候 ， 当 前 处 理 融 上 的 软 中 断 被 禁止 。 但 其 他 的 处 理 器 仍 可 以 执行 别 的 软 中 断 。 实 际 上 ， 如 果 同 一 
个 软 中 断 在 它 被 执行 的 同时 再 次 被 触发 了 ， 那 么 另外 一 个 处 理 器 可 以 同时 运行 其 处 理 程序 。 这 意 
际 着 任何 共享 数据 (其 至 是 仅 在 软 中 断 处 理 程序 内 部 使 用 的 全 局 变量 〉 都 需要 严格 的 锁 保 护 ( 在 
后 面 的 内 容 中 会 讨论 )。 这 点 很 重要 ， 它 也 是 tasklet 更 受 青睐 的 原因 。 单 纯 地 禁止 你 的 软 中 断 处 
理 程序 同时 执行 不 是 很 理想 。 如 果 仅 仅 通过 互 斥 的 加 锁 方 式 来 防止 它 自身 的 并 发 执行 ， 那 么 使 用 
软 中 断 就 没有 任何 意义 了 。 因 此 ， 大 部 分 软 中 断 处 理 程序 ， 都 通过 采取 单 处 理 器 数据 ( 仅 属 于 某 
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一 个 处 理 器 的 数据 ， 因 此 根本 不 需要 加 锁 ) 或 其 他 一 些 技巧 来 避免 显 式 地 加 锁 ， 从 而 提供 更 出 
色 的 性 能 。 

引入 软 中 断 的 主要 原因 是 其 可 扩展 性 。 如 果 不 需 要 扩展 到 多 个 处 理 器 ， 那 么 ， 就 使 用 
tasklet 吧 。tasklet 本 质 上 也 是 软 中 断 ， 只 不 过 同一 个 处 理 程序 的 多 个 实例 不 能 在 多 个 处 理 器 上 
同时 运行 。 

3. 触发 你 的 软 中 断 

通过 在 枚 举 类 型 的 列表 中 添加 新 项 以 及 调用 open_softirqf 进行 注册 以 后 ， 新 的 软 中 断 处 理 
程序 就 能 够 运行 。raise_softirq0 函数 可 以 将 一 个 软 中 断 设 置 为 挂 起 状态 ， 让 它 在 下 次 调用 do_ 
softirq() 函数 时 投入 运行 。 举 个 例子 ， 网 络 子 系统 可 能 会 调用 : 


raise softirqg{NET TX SOFTIRQ) ; 


这 会 触发 NET_TX_SOFTIRQ 软 中 断 。 它 的 处 理 程 序 net_tx_action() 就 会 在 内 核 下 一 次 执行 
软 中 断 时 投入 运行 。 该 函数 在 触发 一 个 软 中 断 之 前 先 要 禁止 中 断 ， 触 发 后 再 恢复 原来 的 状态 。 如 
果 中 断 本 来 就 已 经 被 禁止 了 ， 那 么 可 以 调用 另 一 函数 raise_softirq_irqoff)， 这 会 带 来 一 些 优化 效 
果 。 如: 

A 

* 中 断 已 经 被 禁止 

二 tirg irgoff (NET TX _ SOFTIRQI] ; 

在 中 断 处 理 程 序 中 触发 软 中 断 是 最 常见 的 形式 。 在 这 种 情况 下 ， 中 断 处 理 程序 执行 硬件 设备 
的 相关 操作 ， 然 后 触发 相应 的 软 中 断 ， 最 后 退出 。 内 核 在 执行 完 中 断 处 理 程序 以 后 ， 马 上 就 会 调 
用 do_softirq() 函数 。 于 是 软 中 断 开 始 执行 中 断 处 理 程序 留 给 它 去 完成 的 剩余 任务 。 在 这 个 例子 
中 ,“ 上 半 部 ”和 “下 半 部 ”名 字 的 含义 一 目 了 然 。 


8.3 tasklet 


tasklet 是 利用 软 中 断 实 现 的 一 种 下 半 部 机 制 。 我 们 之 前 提 到 过 ， 它 和 进程 没有 任何 关 
系 。tasklet 和 软 中 断 在 本 质 上 很 相似 ， 行 为 表现 也 相近 ， 但 是 ， 它 的 接口 更 简单 ， 锁 保护 也 
要 求 较 低 。 

选择 到 底 是 用 软 中 断 还 是 tasklet 其 实 很 简单 : 通常 你 应 该 用 tasklet。 就 像 我 们 在 前 面 看 到 
的 ， 软 中 断 的 使 用 者 届 指 可 数 。 它 只 在 那些 执行 频率 很 高 和 连续 性 要 求 很 高 的 情况 下 才 和 需要 使 
用 。 而 tasklet 却 有 更 广泛 的 用 途 。 大 多 数 情况 下 用 tasklet 效果 都 不 错 ， 而 且 它 们 还 非常 容易 
使 用 。 i 


8.3.1 tasklet 的 实现 


因为 tasklet 是 通过 软 中 断 实 现 的 ， 所 以 它们 本 身 也 是 软 中 断 。 前 面 讨 论 过 了 ，tasklet 由 两 
类 软 中 断代 表 : HI SOFTIRQ 和 TASKLET _SOFTIRQ。 这 两 者 之 间 唯 一 的 实际 区 别 在 于 ，HI_ 
SOFTIRQ 类 型 的 软 中 断 先 于 TASKLET_SOFTIRQ 类 型 的 软 中 断 执行 。 
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1. tasklet 结构 体 
tasklet 由 tasklet_struct 结构 表示 。 每 个 结构 体 单 独 代表 一 个 tasklet， 它 在 <linux/interrupt.h> 
中 定义 为 : 


struct tasklet struct { 


struct tasklet struct *next,; /* 链表 中 的 下 一 个 七 aBkLet */ 
unsigned long etate; /* tasklet 的 状态 */ 
atomic t count,; A* 3 引用 计数 器 */ 

void {*func) (unsigned long}:; /* tasKklet 由理 函 数 */ 
unsigned long data; /* 给 tasklet 处 理 函 数 的 参数 */ 


} 

结构 体 中 的 func 成 员 是 tasklet 的 处 理 程序 〈 像 软 中 断 中 的 action 一 样 ), data 是 它 唯 一 的 参数 。 

state 成 员 只 能 在 0、TASKLET STATE SCHED 和 TASKLET STATE RUN 之 间 取 值 。 
TASKLET STATE _SCHED 表明 tasklet 已 被 调度 ， 正 准备 投入 运行 ，TASKLET STATE _ RUN 表 
明 该 tasklet 正在 运行 。TASKLET STATE RUN 只 有 在 多 处 理 器 的 系统 上 才 会 作为 一 种 优化 来 使 
用 ， 单 处 理 器 系统 任何 时 候 都 清楚 单个 tasklet 是 不 是 正在 运行 〈 它 要 么 就 是 当前 正在 执行 的 代 
码 ， 要 么 不 是 )。 z 

count 成 员 是 tasklet 的 引用 计数 得 。 如 果 它 不 为 0， 则 tasklet 被 禁止 ， 不 允许 执行 ; 只 有 当 
它 为 0 时 ，tasklet 才 被 激活 ， 并 且 在 被 设置 为 挂 起 状态 时 ， 读 tasklet 才能 够 执行 。 

2, 调度 tasklet 

已 调度 的 tasklet (等 同 于 被 触发 的 软 中 断 ) 日 存放 在 两 个 单 处 理 器 数据 结构 : tasklet_vec ( 普 
通 tasklet) 和 tasklet hi vec (高 优先 级 的 tasklet)。 这 两 个 数据 结构 都 是 由 tasklet struct 结构 体 
构成 的 链表 。 链 表 中 的 每 个 tasklet_struct 代表 一 个 不 同 的 tasklet。 

tasklet struct 结构 体 构成 的 链表 。 链 表 中 的 每 个 tasklet_struct 代表 一 个 不 同 的 tasklet。 

tasklet 由 tasklet schedule0 和 tasklet hi schedule0 函数 进行 调度 ， 它 们 接受 一 个 指向 tasklet_ 
struct 结构 的 指针 作为 参数 。 两 个 函数 非常 类 似 〔 区 别 在 于 一 个 使 用 TASKLET_ SOFTIRQ 而 另 一 
个 用 HI SOFTIRQ)。 在 接 下 来 的 内 容 中 我 们 将 仔细 研究 怎么 编写 和 使 用 tasklets。 现 在 ， 让 我 们 先 
考 蹇 一 下 tasklet_schedule( 的 细节 : 

tasklet_ schedule() 的 执行 步骤 : 

1) 检查 tasklet 的 状态 是 否 为 TASKLET STATE SCHED。 如 果 是 ， 说 明 tasklet 已 经 被 调度 
过 了 号 ， 函 数 立即 返回 。 

2) 调用 tasklet_ scheduleO。 

3) 保存 中 断 状态 ， 然 后 禁止 本 地 中 断 。 在 我 们 执行 tasklet 代码 时 ， 这 么 做 能 够 保证 当 
tasklet_schedule() 处 理 这 些 tasklet 时 ， 处 理 器 上 的 数据 不 会 弄 乱 。 

4) 把 需要 调度 的 tasklet 加 到 每 个 处 理 器 一 个 的 tasklet_vec 链表 或 tasklet hi _ vec 链表 的 表 
头 上 去 。 


台 ”此 处 是 命名 混乱 的 又 一 个 实例 。 为 什么 软 中 断 是 唤醒 而 tasklet 是 调度 ? 谁 能 说 得 清楚 ? 两 个 词 实际 上 都 表示 
将 此 下 半 部 设置 为 待 执行 状态 后 以 便 稍 后 执行 。 
加 “有 可 能 是 一 个 tasklet 已 经 被 调 庶 过 但 还 没 来 得 及 执行 ， 而 该 tasklet 又 被 唤起 了 一 次 。 一 一 译 者 注 
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5) 唤起 TASKLET SOFTIRQ 或 HI SOFTIRQ 软 中 断 ， 这 样 在 下 一 次 调用 do_softirq0 时 就 
会 执行 该 tasklet。 

6) 恢复 中 断 到 原状 态 并 返回 。 

在 前 面 的 内 容 中 我 们 曾经 提 到 过 挂 起 ，do_softirq() 会 尽 可 能 早 地 在 下 一 个 合适 的 时 机 执行 。 
由 于 大 部 分 tasklet 和 软 中 断 都 是 在 中 断 处 理 程 序 中 被 设置 成 待 处 理 状态 ， 所 以 最 近 一 个 中 断 返 
回 的 时 候 看 起 来 就 是 执行 do_softirq0 的 最 佳 时 机 。 因 为 TASKLET_SOFTIRQ 和 HIL_ SOFTIRQ 
已 经 被 触发 了 ， 所 以 do_softirq0 会 执行 相应 的 软 中 断 处 理 程 序 。 而 这 两 个 处 理 程序 ，tasklet_ 
action() 和 tasklet_hi action()， 就 是 tasklet 处 理 的 核心 。 让 我 们 观察 它们 做 了 什么 : 

1) 禁止 中 断 〈 没 有 必要 首先 保存 其 状态 ， 因 为 这 里 的 代码 总 是 作为 软 中 断 被 调用 ， 而 且 中 
断 总 是 被 激活 的 )， 并 为 当前 处 理 器 检索 tasklet_vec 或 tasklet_hig_vec 链表 。 

2) 将 当前 处 理 器 上 的 该 链表 设置 为 NULL， 达 到 清空 的 效果 。 

3) 允许 响应 中 断 。 没 有 必要 再 恢复 它们 回 原 状态 ， 因 为 这 段 程序 本 身 就 是 作为 软 中 断 处 理 
程序 被 调用 的 ， 所 以 中 断 是 应 该 被 允许 的 。 

4) 循环 遍历 获得 链表 上 的 每 一 个 待 处 理 的 tasklet。 

5) 如 果 是 多 处 理 器 系统 ， 通 过 检查 TASKLET STATE RUN 来 判断 这 个 tasklet 是 否 正在 其 
他 处 理 器 上 运行 。 如 果 它 正在 运行 ， 那 么 现在 就 不 要 执行 ， 跳 到 下 一 个 待 处 理 的 tasklet 去 ( 回 
忆 一 下 ， 同 一 时 间 里 ， 相 同类 型 的 tasklet 只 能 有 一 个 执行 )。 

6) 如 果 当 前 这 个 tasklet 没有 执行 ， 将 其 状态 设置 为 TASKLET_STATE_RUN， 这 样 别 的 处 
理 大 就 不 会 再 去 执行 它 了 。 

7) 检查 count 值 是 否 为 0， 确 保 tasklet 没有 被 禁止 。 如 果 tasklet 被 禁止 了 ， 则 跳 到 下 一 个 
挂 起 的 tasklet 去 。 

8) 我 们 已 经 清楚 地 知道 这 个 tasklet 设 有 在 其 他 地 方 执行 ， 并 且 被 我 们 设置 成 执行 状态 ， 这 
样 它 在 其 他 部 分 就 不 会 被 执行 ， 并 且 引 用 计数 为 0， 现在 可 以 执行 tasklet 的 处 理 程序 了 。 

9) tasklet 运行 完毕 ， 清 除 tasklet 的 state 域 的 TASKLET STATE _ RUN 状态 标志 。 

10) 重复 执行 下 一 个 tasklet， 直 至 没有 剩余 的 等 待 处 理 的 tasklet。 

tasklet 的 实现 很 简单 ， 但 非常 巧妙 。 我 们 可 以 看 到 ， 所 有 的 tasklet 都 通过 重复 运用 HL 
SOFTIRQ 和 TASKLET SOFTIRQ 这 两 个 软 中 断 实 现 。 当 一 个 tasklet 被 调度 时 ， 内 核 就 会 唤起 
这 两 个 软 中 断 中 的 一 个 。 随 后 ， 读 软 中 断 会 被 特定 的 函数 处 理 ， 执 行 所 有 已 调度 有 的 tasklet。 这 个 
函数 保证 同一 时 间 里 只 有 一 个 给 定 类 别 的 tasklet 会 被 执行 (但 其 他 不 同类 型 的 tasklet 可 以 同时 
执行 )。 所 有 这 些 复杂 性 都 被 一 个 简洁 的 接口 隐藏 起 来 了 。 


8.3.2 使 用 tasklet 


大 多 数 情况 下 ， 为 了 控制 一 个 寻常 的 硬件 设备 ，tasklet 机 制 都 是 实现 自己 的 下 半 部 的 最 佳 选 
择 。tasklet 可 以 动态 创建 ， 使 用 方便 ， 执 行 起 来 也 还 算 快 。 此 外 ， 尽 管 它们 的 名 字 使 人 很 请 ， 但 
能 加 深 你 的 印象 : 那 是 逗 人 喜爱 的 。 

1. 声明 你 自己 的 tasklet 

你 既 可 以 静态 地 创建 tasklet， 也 可 以 动态 地 创建 它 。 选 择 哪 种 方式 取决 于 你 到 底 是 有 (或 者 
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是 想 要 ) 一 个 对 tasklet 的 直接 引用 还 是 间接 引用 。 如 果 你 准备 静态 地 创建 一 个 tasklet (也 就 是 有 
一 个 它 的 直接 引用 )， 使 用 下 面 <linux/interrupt.h> 中 定义 的 两 个 宏 中 的 一 个 : 


DECLARE TASKLETINname, func, data) 

DECLARE TASKLET DISABLED (name, func, data); 

这 两 个 宏 都 能 根据 给 定 的 名 称 静 态 地 创建 一 个 tasklet_struct 结构 。 当 该 tasklet 被 调度 以 后 ， 
给 定 的 函数 func 会 被 执行 ， 它 的 参数 由 data 给 出 。 这 两 个 宏 之 间 的 区 别 在 于 引用 计数 器 的 初始 
值 设置 不 同 。 前 面 一 个 宏 把 创建 的 tasklet 的 引用 计数 器 设置 为 0， 该 tasklet 处 于 激活 状态 。 另 一 
个 把 引用 计数 絮 设 置 为 1!， 所 以 该 tasklet 处 于 禁止 状态 。 下 面 是 一 个 例子 : 


DECLARE TASKLET(my tasklet, my tasklet handler, dev); 
这 行 代码 其 实 等 价 于 


struct tasklet struct my tasklet = { NULL, 0, ATOMIC INIT(0), 
my tasklet handler, dev}; 


这 样 就 创建 了 一 个 名 为 my_tasklet， 处 理 程 序 为 tasklet_handler 并 且 是 已 被 激活 的 tasklet。 
当 处 理 程序 被 调用 的 时 候 ，dev 就 会 被 传递 给 它 。 

还 可 以 通过 将 一 个 同 接 引 用 (一 个 指针 ) 赋 给 一 个 动态 创建 的 tasklet_struct 结构 的 方式 来 初 
始 化 一 个 tasklet_init() : 

tasklet init(t, tasklet handler, dev);  /* 动态 而 不 是 静态 创建 */ 


2. 编写 你 自己 的 tasklet 处 理 程 序 
tasklet 处 理 程序 必须 符合 规定 的 国 数 类 型 ， 


void tasklet handler (unsigned long data) 


因为 是 靠 软 中 断 实 现 ， 所 以 tasklet 不 能 睡 卢 。 这 意味 着 你 不 能 在 tasklet 中 使 用 信和 号 量 或 者 
其 他 什么 阻塞 式 的 函数 。 由 于 tasklet 运行 时 允许 响应 中 断 ， 所 以 你 必须 做 好 预防 工作 〈 如 屏蔽 
中 断然 后 获取 一 个 锁 )， 如 果 你 的 tasklet 和 中 断 处 理 程序 之 间 共 享 了 某 些 数据 的 话 。 两 个 相同 的 
tasklet 决 不 会 同时 执行 ， 这 点 和 软 中 断 不 同 尽管 两 个 不 同 的 tasklet 可 以 在 两 个 处 理 器 上 同 
时 执行 。 如 果 你 的 tasklet 和 其 他 的 tasklet 或 者 是 软 中 断 共 享 了 数据 ， 你 必须 进行 适当 地 锁 保 护 。 
(参看 第 9 章 和 第 10 章 )。 

3. 调度 你 自己 的 tasklet 

通过 调用 tasklet_schedule0 函数 并 传递 给 它 相 应 的 tasklt_struct 的 指针 ， 该 tasklet 就 会 被 调 
度 以 便 执行 : 


LaSk1et_schedule(&my tasklet); “/* 把 my_ tasklet 标记 为 挂 起 */ 


在 tasklet 被 调度 以 后 ， 只 要 有 机 会 它 就 会 尽 可 能 旱地 运行 。 在 它 还 没有 得 到 运行 机 会 之 前 ， 
如 果 有 一 个 相同 的 tasklet 又 被 调度 了 呈 ， 那 么 它 仍然 只 会 运行 一 次 。 而 如 果 这 时 它 已 经 开始 运行 





日 ”这 里 应 该 是 唤起 的 意思 ， 在 前 面 讲述 调度 流程 的 内 容 里 可 以 看 到 ， 调 度 tasklet 的 第 一 个 步骤 就 是 检查 是 否 重 
复 ， 所 以 这 里 根本 不 会 完成 调度 。 一 一 译 者 注 
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了 ， 上 比如 说 在 另外 一 个 处 理 器 上 ， 那 么 这 个 新 的 tasklet 会 被 重新 调度 并 再 次 运行 。 作 为 一 种 优 
化 措施 ， 一 个 tasklet 总 在 调度 它 的 处 理 器 上 执行 一 一 这 是 希望 能 更 好 地 利用 处 理 器 的 高 速 缓存。 
你 可 以 调用 tasklet_disable() 函数 来 禁止 某 个 指定 的 tasklet。 如 果 该 tasklet 当前 正在 执行 ， 
这 个 国 数 会 等 到 它 执行 完毕 再 返回 。 你 也 可 以 调用 tasklet_disable_nosync0 国 数 ， 它 也 用 来 禁 
止 指 定 的 tasklet， 不 过 它 无 须 在 返回 前 等 待 tasklet 执行 完毕 。 这 么 做 往往 不 太 安 全 ， 因 为 你 无 
法 估计 该 tasklet 是 否 仍 在 执行 。 调 用 tasklet_enable() 函数 可 以 沿 话 一 个 tasklet， 如 果 和 希望 激活 
DECLARE_TASKLET_DISABLED() 创建 的 tasklet， 你 也 得 调用 这 个 函数 ， 如 : 


tasklet disable(&my tasklet); /* tasklet 现在 被 禁止 */ 
/* 我 们 现在 毫 无 疑问 地 知道 tasklet 不 能 运行 */ 
tasklet enable(gmy tasklet); As tasklet 现在 被 激活 */ 


你 可 以 通过 调用 tasklet_kill0 函数 从 挂 起 的 队列 中 去 掉 一 个 tasklet。 该 函数 的 参数 是 一 个 指 
向 某 个 tasklet 的 tasklet_struct 的 长 指针 。 在 处 理 一 个 经 常 重新 调度 它 自身 的 tasklet 的 时 候 ， 从 
挂 起 的 队列 中 移 去 已 调度 的 tasklet 会 很 有 用 。 这 个 函数 首先 等 待 该 tasklet 执行 完毕 ， 然 后 再 将 
它 移 去 。 当 然 ， 没 有 什么 可 以 阻止 其 他 地 方 的 代码 重新 调度 该 tasklet。 由 于 该 函数 可 能 会 引起 休 
眠 ， 所 以 禁止 在 中 断 上 下 文中 使 用 它 。 

4. ksoftirqd 

每 个 处 理 器 都 有 一 组 辅助 处 理 软 中 断 〈 和 tasklet) 的 内 核 线程 。 当 内 核 中 出 现 大 量 软 中 断 的 
时 人 息 ， 这 些 内 核 进程 就 会 辅助 处 理 它们 。 因 为 tasklet 通过 用 软件 中 断 实施 ， 下 面 的 讨论 同样 适 
用 于 软 中 断 和 tasklet。 简 洁 起 见 ， 我 们 将 主要 参考 软 中 断 。 

我 们 前 面 曾经 阐述 过 ， 对 于 软 中 断 ， 内 核 会 选择 在 几 个 特殊 时 机 进行 处 理 。 而 在 中 断 处 理 
程序 返回 时 处 理 是 最 常见 的 。 软 中 断 被 触发 的 频率 有 了 时 可 能 很 高 〈 像 在 进行 大 流量 的 网 络 通 信 期 
间 )。 更 不 利 的 是 ， 处 理 函 数 有 时 还 会 自行 重复 触发 。 也 就 是 说 ， 当 一 个 软 中 断 执 行 的 时 候 ， 它 
可 以 重新 触发 自己 以 便 再 次 得 到 执行 (事实 上 ， 网 络 子 系统 就 会 这 么 做 )。 如 果 软 中 断 本 身 出 现 
的 频率 就 高 ， 再 加 上 它们 又 有 将 自己 重新 设置 为 可 执行 状态 的 能 力 ， 那 么 就 会 导致 用 户 空 间 进程 
无 法 获得 足够 的 处 理 器 时 间 ， 因 而 处 于 饥饿 状态 。 而 且 ， 单 纯 的 对 重新 触发 的 软 中 断 采 取 不 立 
即 处 理 的 策略 ， 也 无 法 让 人 接受 。 当 软 中 断 最 初 提出 时 ， 就 是 一 个 让 人 进退 维 谷 的 问题 ， 噶 待 解 
决 ， 而 直观 的 解决 方案 又 都 不 理想 。 首 先 ， 就 让 我 们 看 看 两 种 最 容易 想到 的 直观 的 方案 。 

第 一 种 方案 是 ， 只 要 还 有 被 触发 并 等 待 处 理 的 软 中 断 ， 本 次 执行 就 要 负责 处 理 ， 重 新 触发 的 
软 中 断 也 在 本 次 执行 返回 前 被 处 理 。 这 样 做 可 以 保证 对 内 核 的 软 中 断 采 取 即 时 处 理 的 方式 ， 关 键 
在 于 ， 对 重新 触发 的 软 中 断 也 会 立即 处 理 。 当 负载 很 高 的 时 候 这 样 做 就 会 出 问题 ， 此 时 会 有 大 量 
被 触发 的 软 中 断 ， 而 它们 本 身 又 会 重复 触发 。 系 统 可 能 会 一 直 处 理 软 中 断 ， 根 本 不 能 完成 其 他 任 
务 。 用 户 空间 的 任务 被 忽略 了 一 一 实际 上 ， 只 有 软 中 断 和 中 断 处 理 程 序 轮 流 执行 ， 而 系统 的 用 户 
只 能 等 待 。 只 有 在 系统 永远 处 于 低 负载 的 情况 下 ， 这 种 方案 才 会 有 理想 的 运行 效果 ; 只 要 系统 有 
哪怕 是 中 等 程度 的 负载 量 ， 这 种 方案 就 无 法 让 人 满意 。 用 户 空间 根本 不 能 容 肪 有 明显 的 停顿 出 现 。 

第 二 种 方案 选择 不 处 理 重新 触发 的 软 中 断 。 在 从 中 断 返 回 的 时 候 ， 内 核 和 平常 一 样 ， 也 会 检 
查 所 有 挂 起 的 软 中 断 并 处 理 它们 。 但 是 ， 任 何 自行 重新 触发 的 软 中 断 都 不 会 马上 处 理 ， 它 们 被 放 
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到 下 一 个 软 中 断 执 行 时 去 处 理 。 而 这 个 时 机 通常 也 就 是 下 一 次 中 断 返 回 的 时 候 ， 这 等 于 是 说 ， 一 
定 得 等 一 段 时 间 ， 新 的 (或 者 重新 触发 的 ) 软 中 断 才能 被 执行 。 可 是 ， 在 比较 空闲 的 系统 中 ， 立 
即 处 理 软 中 断 才 是 比较 好 的 做 法 。 很 不 幸 ， 这 个 方案 显然 又 是 一 个 时 好 时 坏 的 选择 。 尽 管 它 能 保 
证 用 户 空间 不 处 于 饥 钱 状态 ， 但 它 却 让 软 中 断 忍 受 饥饿 的 痛苦 ， 而 根本 没有 好 好 利用 闲置 的 系统 
资源 。 

在 设计 软 中 断 时 ， 开 发 者 就 意识 到 需要 一 些 折 中 。 最 终 在 内 核 中 实现 的 方案 是 不 会 立即 处 理 
重新 触发 的 软 中 断 。 而 作为 改进 ， 当 大 量 坎 中 断 出 现 的 时 候 ， 内 核 会 唤醒 一 组 内 核 线程 来 处 理 这 
些 负载 。 这 些 线程 在 最 低 的 优先 级 上 运行 (nice 值 是 19)， 这 能 避免 它们 跟 其 他 重要 的 任务 抢夺 
资源 。 但 它们 最 终 肯 定 会 被 执行 ， 所 以 ， 这 个 折 中 方案 能 够 保证 在 软 中 断 负 担 很 重 的 时 候 ， 用 户 
程序 不 会 因为 得 不 到 处 理 时 间 而 处 于 饥饿 状态 。 相 应 的 ， 也 能 保证 “过量 ”的 软 中 断 终究 会 得 到 
处 理 。 最 后 ， 在 空闲 系统 上 ， 这 个 方案 同样 表现 良好 ， 软 中 断 处 理 得 非常 迅速 〈 因 为 仅 存 的 内 核 
线程 肯定 会 马上 调度 )。 

每 个 处 理 器 都 有 一 个 这 样 的 线程 。 所 有 线程 的 名 字 都 叫做 ksoftirqdn， 区 别 在 于 n， 它 
对 应 的 是 处 理 器 的 编号 。 在 一 个 双 CPU 的 机 器 上 就 有 两 个 这 样 的 线程 ， 分 别 叫 ksoftirqd/0 和 
ksoftirqd/i 。 为 了 保证 只 要 有 空闲 的 处 理 器 ， 它 们 就 会 处 理 软 中 断 ， 所 以 给 每 个 处 理 器 都 分 配 一 
个 这 样 的 线程 。 一 旦 该 线程 被 初始 化 ， 它 就 会 执行 类 似 下 面 这 样 的 死 循 环 : 

for (;;) { 


if (laoftirg pending(cpu))} 
schedulel); 


set current state(lTASK RUNMNING); 


While (softirqg pending(cpu)) 1 
do softirg{(}); 
if (need resched{})}) 
schedule(}} 
} 


Set current state(TASK INTERRUPTIBLE); 

} . 

只 要 有 竺 处理 的 软 中 断 (由 softirq_pending() 函数 负责 发 现 )，ksoftirq 就 会 调用 do_softirq0 
去 处 理 它们 。 通 过 重复 执行 这 样 的 操作 ， 重 新 触发 的 软 中 断 也 会 被 执行 。 如 果 有 必要 的 话 ， 每 次 
迭代 后 都 会 调用 schedule() 以 便 让 更 重要 的 进程 得 到 处 理 机 会 。 当 所 有 需要 执行 的 操作 都 完成 以 
后 ， 访 内核 线程 将 自己 设置 为 TASK_INTERRUPTIBLE 状态 ， 晚 起 调度 程序 选择 其 他 可 执行 进 
程 投入 运行 。 

只 要 do_softirq0 函数 发 现 已 经 执行 过 的 内 核 线程 重新 触发 了 它 自己 ， 软 中 断 内 核 线 程 就 会 
被 唤醒 。 


8.3.3 老 的 BH 机 制 
尽管 BH 机 制 令 人 欣慰 地 退出 了 历史 舞台 ， 在 2.6 版 内 核 中 已 经 难 砚 踪迹 了 。 可 是 ， 它 毕竟 
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曾经 历经 了 褐 长 的 时 光一 一 从 最 早 版 本 的 内 核 就 开始 了 。 由 于 其 余 威 尚 存 ， 所 以 仅仅 不 经 意 地 提 
起 它 是 不 够 的 ， 尽 管 在 2.6 版 本 中 已 经 不 再 使 用 它 了 ， 但 历史 就 是 历史 ， 应 该 被 了 解 。 

BH 很 古老 ， 但 它 能 揭示 一 些 东 西 。 所 有 BH 都 是 静态 定义 的 ， 最 多 可 以 有 32 个 。 由 于 
处 理 国 数 必 须 在 编译 时 就 被 定义 好 ， 所 以 实现 模块 时 不 能 直接 使 用 BH 接口 。 不 过 业已 存在 的 
BH 倒是 可 以 利用 。 随 着 时 间 的 推移 ， 这 种 静态 要 求 和 最 大 为 32 个 的 数目 限制 最 终 妨 碍 了 它们 
的 应 用 。 

每 个 BH 处 理 程序 都 严格 地 按 顺 序 执行 一 一 不 允许 任何 两 个 BH 处 理 程序 同时 执行 ， 即 使 它 
们 的 类 型 不 同 。 这 样 做 倒是 使 同步 变 得 简单 了 ， 可 是 却 不 利于 多 处 理 器 的 可 扩展 性 ， 也 不 利于 大 
型 SMP 的 性 能 。 使 用 BH 的 驱动 程序 很 难 从 多 个 处 理 器 上 受益 ， 特 别 是 网 络 层 ， 可 以 说 为 此 饱 
受 困 扰 。 

除了 这 些 特点 ，BH 机 制 和 tasklet 就 很 像 了 。 实 际 上 ， 在 2.4 内 核 中 ，BH 就 是 基于 tasklet 
实现 的 。 所 有 可 能 的 32 个 BH 都 通过 在 <linux/interrupt.h> 中 定义 的 常量 表示 。 如 果 需 要 将 一 个 
BH 标志 为 挂 起 状态 ， 可 以 把 相应 的 BH 号 传 给 mark_bh() 函数 。 在 2.4 内 核 中， 这 将 导致 随后 调 
度 BH tasklet， 具 体 工作 是 由 函数 bh_action0 完成 的 。 而 在 2.4 内 核 以 前 ，BH 机制 独立 实现 ， 不 
依赖 任何 低级 BH 机 制 ， 这 和 现在 的 软 中 断 很 像 。 

由 于 这 种 形式 的 下 半 部 机 制 存 在 缺点 ， 内 核 开 发 者 们 希望 引入 任务 队列 机 制 来 代替 它 。 尽 管 
任务 队列 得 到 了 不 少 使 用 者 的 认可 ， 但 它 实际 上 并 没有 达成 这 个 目的 。 在 2.3 版 的 内 核 中 ， 引 入 
新 的 软 中 断 和 tasklet 机 制 也 就 结束 了 对 BH 的 使 用 。BH 机 制 基于 tasklet 重新 实现 。 不 幸 的 是 ， 
因为 新 接口 本 身 降 低 了 对 执行 的 序列 化 (serialization) 保障 ， 所 以 从 BH 接口 移植 到 tasklet 或 软 
中 断 接 口上 操作 起 来 非常 复杂 唱 。 在 2.5 版 中 ， 这 种 移植 最 终 在 定时 器 和 SCSI (最 后 的 BH 使 用 
者 ) 转换 到 软 中 断 机 制 后 完成 了 。 于 是 内 核 开发 者 们 立即 除去 了 BH 接口 。 终 于 解脱 了 ，BH ! 


8.4 工作 队列 


工作 队列 《work queue) 是 另外 一 种 将 工作 推 后 执行 的 形式 ， 它 和 我 们 前 面 讨论 的 所 有 其 他 
形式 都 不 相同 。 工 作 队列 可 以 把 工作 推 后 ， 交 由 一 个 内 核 线程 去 执行 一 一 这 个 下 半 部 分 总 是 会 在 
进程 上 下 文中 执行 。 这 样 ， 通 过 工作 队列 执行 的 代码 能 占 尽 进 程 上 下 文 的 所 有 优势 。 最 重要 的 就 
是 工作 队列 允许 重新 调度 甚至 是 睡眠 。 

通常 ， 在 工作 队列 和 软 中 断 /tasklet 中 做 出 选择 非常 容易 。 如 果 推 后 执行 的 任务 需要 睡眠 ， 
那么 就 选择 工作 队列 。 如 果 推 后 执行 的 任务 不 需要 睡眠 ， 那 么 就 选择 软 中 断 或 tasklet。 实 际 上 ， 
工作 队列 通常 可 以 用 内 核 线程 替换 。 但 是 由 于 内 核 开 发 者 们 非常 反对 创建 新 的 内 核 线程 (在 有 些 
场合 ， 使 用 这 种 冒失 的 方法 可 能 会 吃 到 苦头 )， 所 以 我 们 也 推荐 使 用 工作 队列 。 当 然 ， 这 种 接 吕 
也 的 确 很 容易 使 用 。 

如 果 你 需要 用 一 个 可 以 重新 调度 的 实体 来 执行 你 的 下 半 部 处 理 ， 你 应 该 使 用 工作 队列 。 它 是 





但 ”实际 上 ， 接 口 降低 对 执行 的 序列 化 保障 能 够 提高 安全 性 ， 但 却 难于 编程 。 移 植 一 个 BH 到 tasklet， 需 要 仔细 地 
其 极 代码 与 其 他 tasklet 同时 执行 基 否 安全 。 不 过 ， 当 最 终 完 成 这 样 的 移植 后 ， 性 能 上 的 提高 会 使 这 些 额 外 工 
作物 有 所 值 。 
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唯一 能 在 进程 上 下 文中 运行 的 下 半 部 实现 机 制 ， 也 只 有 它 才 可 以 睡眠 。 这 意味 着 在 你 需要 获得 大 
量 的 内 存 时 ， 在 你 需要 获取 信和 号 量 时 ， 在 你 需要 执行 阻塞 式 的 IO 操作 时 ， 它 都 会 非常 有 用 。 如 
果 你 不 需要 用 一 个 内 核 线 程 来 推 后 执行 工作 ， 那 么 就 考虑 使 用 tasklet 吧 。 


8.4.1 工作 队列 的 实现 


工作 队列 子 系统 是 一 个 用 于 创建 内 核 线程 的 接口 ， 通 过 它 创 建 的 进程 负责 执行 由 内 核 其 他 部 
分 排 到 队列 里 的 任务 。 它 创建 的 这 些 内 楼 线程 称 作 工作 者 线程 (worker thread)。 工 作 队 列 可 以 
让 你 的 驱动 程序 创建 一 个 专门 的 工作 者 线程 来 处 理 需 要 推 后 的 工作 。 不 过 ， 工 作 队 列子 系统 提供 
了 一 个 缺 省 的 工作 者 线程 来 处 理 这 些 工 作 。 因此 ， 工 作 队 列 最 基本 的 表现 形式 ， 就 转变 成 了 一 个 
把 需要 推 后 执行 的 任务 交 给 特定 的 通用 线程 的 这 样 一 种 接口 。 

缺 省 的 工作 者 线程 叫做 eventsm， 这 里 ma 是 处 理 器 的 编号 ; 每 个 处 理 器 对 应 一 个 线程 。 例 
如 ， 单 处 理 器 的 系统 只 有 events/0 这 样 一 个 线程 ， 而 双 处 理 器 的 系统 就 会 多 一 个 events/1 线程 。 
缺 省 的 工作 者 线程 会 从 多 个 地 方 得 到 被 推 后 的 工作 。 许 多 内 核 驱动 程序 都 把 它们 的 下 半 部 交 给 缺 
省 的 工作 者 线程 去 做 。 除 非 一 个 张 动 程序 或 者 子 系统 必须 建立 一 个 属于 它 目 己 的 内 核 线程 ， 否 则 
最 好 使 用 缺 省 线程 。 

不 过 并 不 存在 什么 东西 能 够 阻止 代码 创建 属于 自己 的 工作 者 线程 。 如 果 你 需要 在 工作 者 线程 
中 执行 大 量 的 处 理 操作 ， 这 样 做 或 许 会 带 来 好 处 。 处 理 器 密集 型 和 性 能 要 求 严 格 的 任务 会 因为 拥 
有 上 自己 的 工作 者 线程 而 获得 好 处 。 此 时 这 人 么 做 也 有 助 于 减轻 缺 省 线程 的 负担 ， 避 兔 工作 队列 中 其 
他 需要 完成 的 工作 处 于 饥饿 状态 。 

1. 表示 线程 的 数据 结构 

工作 者 线程 用 workqueue_struct 结构 表示 : 

A 


* 外 部 可 见 的 工作 队列 抽象 是 
* 由 每 个 CEU 的 工作 队列 组 成 的 数组 
二 


StIUCt workgueue struct { 
struct cpu workqueue struct cpu wgq [NR_ CPUS]:; 
struct list head list; 
const char *name; 
int singqlethread; 
int freezeable; 
int It; 


] ; 

该 结构 内 是 一 个 由 cpu_ workqueue struct 结构 组 成 的 数组 ， 它 定义 在 kernel/workqueue.c 中 ， 
数组 的 每 一 项 对 应 系统 中 的 一 个 处 理性 。 由 于 系统 中 每 个 处 理 普 对 应 一 个 工作 者 线程 ， 所 以 对 
于 给 定 的 某 台 计算 机 来 说 ， 就 是 每 个 处 理 器 ， 每 个 工作 者 线程 对 应 一 个 这 样 的 cpu_workqueue_ 
struct 结构 体 。cpu_ work queue_struct 是 kemel/workqueue.c 中 的 核心 数据 结构 : 


struct cpu workqueue struct | 


spinlock t lock; /* 镇 保护 这 种 结构 */ 


struct list head worklist; /* 工作 列表 */ 
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wait queue head t more work; 
Struct work struct*current struct; 


struct workqueue struct *wq; A/* 关联 工作 队列 结构 */ 
task t *thread; 1/* 关联 线程 */ 
上 ; 
注意 ， 每 个 工作 者 线程 类 型 关联 一 个 自己 的 workqueue_struct。 在 该 结构 体 里 面 ， 给 每 个 线 
程 分 配 一 个 cpu_workqueue_stmct， 因 而 也 就 是 给 每 个 处 理 器 分 配 一 个 ， 因 为 每 个 处 理 器 都 有 一 
个 读 类 型 的 工作 者 线程 。 
2. 表示 工作 的 数据 结构 
所 有 的 工作 者 线程 都 是 用 普通 的 内 核 线程 实现 的 ， 它 们 都 要 执行 worker_thread() 函数 。 在 
它 初始 化 完 以 后 ， 这 个 国 数 执行 一 个 死 循环 并 开始 休眠。 当 有 操作 被 插 人 到 队列 里 的 时 候 ， 线 程 
就 会 被 唤醒 ， 以 便 执 行 这 些 操作 。 当 没有 剩余 的 操作 时 ， 它 又 会 继续 休眠 。 
工作 用 <linux/workqueue.h> 中 定义 的 work struct 结构 体 表 示 : 
struct work struct 1{ 
atomic long 七 data; 
struct list head entry; 


Work func 七 funec; 


}; 


这 些 结构 体 被 连接 成 链表 ， 在 每 个 处 理 器 上 的 每 种 类 型 的 队列 都 对 应 这 样 一 个 链表 。 比 如 ， 
每 个 处 理 器 上 用 于 执行 被 推 后 的 工作 的 那个 通用 线程 就 有 一 个 这 样 的 链表 。 当 一 个 工作 者 线程 被 
唤醒 时 ， 它 会 执行 它 的 链表 上 的 所 有 工作 。 工 作 被 执行 完毕 ， 它 就 将 相应 的 Work_stract 对 象 从 
链表 上 移 去 。 当 链表 上 不 再 有 对 象 的 时 候 ， 它 就 会 继续 休眠 。 

我 们 可 以 看 一 下 worker thread() 函数 的 核心 流程 ， 简 化 如 下 : 

for (;}:} 

| 0 Ewait, TASK INTERRUPTIBLE); 
if (list empty{(&cwq->worklist)) 
schedule(); 
finish wait(bcwd->more work, gwait); 
run workqueue (cwq); 
} 


该 函数 在 死 循 环 中 完成 了 以 下 功能 : 

1) 线程 将 自己 设置 为 休眠 状态 (state 被 设 成 TASK_INTERRUPTIBLE)， 并 把 自己 加 人 到 
等 待 队 列 中 。 

2) 如 果 工 作 链 表 是 空 的 ， 线 程 调用 schedule( 函数 进 和 人 睡眠 状态 。 

3) 如 果 链 表 中 有 对 象 ， 线 程 不 会 睡眠 。 相 反 ， 它 将 自己 设置 成 TASK_RUNNING， 脱 离 等 
待 队 列 。 

4) 如 果 链 表 非 空 ， 调 用 run_ workqueue0 函数 执行 被 推 后 的 工作 。 

下 一 步 ， 由 mun_workqueue0 函数 来 实际 完成 推 后 到 此 的 工作 : 
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While (!list empty(&cwq->worklist)) 1{ 
struct work struct *work; 
Work func 七 f; 
void *datas: 


WOrk = list entry(cwq->workliast.next, struct work struct, entry}); 
f = Work->funes; 
list del init(lcwq->worklist.next)}); 
Work clear pending{(work):} 
frwork});s 
} 


该 函数 循环 遍历 链表 上 每 个 待 处 理 的 工作 ， 执 行 链表 每 个 节点 上 的 workqueue_struct 所 中 的 
func 成 员 函 数 : 

1) 当 链表 不 为 空 时 ， 选 取 下 一 个 市 后 对象。 

2) 获取 我 们 希望 执行 的 函数 func 及 其 参数 data。 

3) 把 该 节点 从 链表 上 解 下 来 ， 将 待 处 理 标 志 位 pending 清 零 。 

4) 调用 函数 。 

5) 重复 执行 。 

3. 工作 队列 实现 机 制 的 总 结 

这 些 数据 结构 之 间 的 关系 确实 让 人 觉得 混乱 ， 难 以 理 清 头绪 。 图 8-1 给 出 了 示意 图 ， 把 所 有 
这 些 关系 放 在 一 起 进行 解释 。 
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每 个 延迟 陋 数 有 一 个 





图 8-1 工作 (work)、 工 作 队列 和 工作 者 线程 之 间 的 关系 
位 于 最 高 一 层 的 是 工作 者 线程 。 系 统 允 许 有 多 种 类 型 的 工作 者 线程 存在 。 对 于 指定 的 一 个 类 


昌 ” 应 读 是 work_struct。 一 一 译 者 注 
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型 ， 系 统 的 每 个 CPU 上 都 有 一 个 该 类 的 工作 者 线程 。 内 核 中 有 些 部 分 可 以 根据 需要 来 创建 工作 
者 线程 ， 而 在 默认 情况 下 内 核 只 有 event 这 一 种 类 型 的 工作 者 线程 。 每 个 工作 者 线程 都 由 一 个 cpu_ 
workequeue_struct 结构 体 表示 。 而 workqueue struct 结构 体 则 表示 给 定 类 型 的 所 有 工作 者 线程 。 

例如 ， 除 系统 默认 的 通用 events 工作 者 类 型 之 外 ， 我 自己 还 加 入 了 一 种 falcon 工作 者 类 型 。 
并 且 使 用 的 是 一 个 拥有 四 个 处 理 器 的 计算 机 。 那 么 ， 系 统 中 现在 有 四 个 event 类 型 的 线程 (因而 
也 就 有 四 个 cpu_workqueue_strmct 结构 体 ) 和 四 个 falcon 类 型 的 线程 (因而 会 有 另外 四 个 cpu_ 
workqueue struct 结构 体 )。 同 时 ， 有 一 个 对 应 event 类 型 的 workqueue struct 和 一 个 对 应 falcon 
类 型 的 workqueue_struct。 

工作 处 于 最 底层 ， 让 我 们 从 这 里 开始 。 你 的 驱动 程序 创建 这 些 需 要 推 后 执行 的 工作 。 它 们 
用 work _struct 结构 来 表示 。 这 个 结构 体 中 最 重要 的 部 分 是 一 个 指针 ， 它 指 辣 一 个 函数 ， 而 正 是 
该 函数 负责 处 理 需 要 推 后 执行 的 具体 任务 。 工 作 会 被 提交 给 某 个 具体 的 工作 者 线程 一 一 在 这 种 情 
况 下 ， 就 是 特殊 的 falcon 线程 。 然 后 这 个 工作 者 线程 会 被 唤醒 并 执行 这 些 排 好 的 工作 。 

大 部 分 驱动 程序 都 使 用 的 是 现存 的 默认 工作 者 线程 。 它 们 使 用 起 来 简单 、 方 便 。 可 是 ， 在 有 
些 要 求 更 严格 的 情况 下 ， 驱 动 程序 需要 自己 的 工作 者 线程 。 比 如 说 XFS 文件 系统 就 为 自己 创建 
了 两 种 新 的 工作 者 线程 。 
8.4.2 ”使 用 工作 队列 

工作 队列 的 使 用 非常 简单 。 我 们 先 来 看 一 下 缺 省 的 events 任务 队列 ， 然 后 再 看 看 创建 新 的 
工作 者 线程 。 

1. 创建 推 后 的 工作 

首先 要 做 的 是 实际 创建 一 些 需要 推 后 完成 的 工作 。 可 以 通过 DECLARE_ WORK 在 编译 时 静 
态 地 建 该 结构 体 : 

DECLARE WORK(name, void (*func) {void *), voiq *data).; 

这 样 就 会 静态 地 创建 一 个 名 为 mame， 处 理 函 数 为 unc， 参 数 为 data 的 Work_struct 结构 体 。 

同样 ， 也 可 以 在 运行 时 通过 指针 创建 一 个 工作 : 

INIT WORK(struct work struct *work, voidl*func) (void *), void *data)}); 

这 会 动态 地 初始 化 一 个 由 work 指向 的 工作 ， 处 理 函 数 为 func， 参 数 为 data。 

2. 工作 队列 处 理 函 数 

工作 队列 处 理 国 数 的 原型 是 : 

void work handler (void *datal) 

这 个 函数 会 由 一 个 工作 者 线程 执行 ， 因 此 ， 函 数 会 运行 在 进程 上 下 文中 。 默 认 情 况 下 ， 允 许 
响应 中 断 ， 并 且 不 持 有 任何 锁 。 如 果 需 要 ， 国 数 可 以 睡眠 。 需 要 注意 的 是 ， 尽 管 操作 处 理 函 数 运 
行 在 进程 上 下 文中 ， 但 它 不 能 访问 用 户 空间 ， 因 为 内 核 线程 在 用 户 空间 没有 相关 的 内 存 映射 。 通 


怠 ”这 其 实 可 以 理解 成 用 “工作 ”这 种 接口 封装 我 们 实际 需要 推 后 的 工作 ， 以 便 后 续 的 工作 者 线程 处 理 。 一 译 者 注 
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第 在 发 生 系统 调用 时 ， 内 核 会 代表 用 户 空 间 的 进程 运行 ， 此 时 它 才能 访问 用 户 空 间 ， 也 只 有 在 此 
时 它 才 会 映射 用 户 空间 的 内 存 。 

在 工作 队列 和 内 核 其 他 部 分 之 间 使 用 锁 机 制 就 像 在 其 他 的 进程 上 下 文中 使 用 锁 机 制 一 样 方 
便 。 这 使 编写 处 理 函 数 变 得 相对 容易 。 第 9 章 和 第 10 章 会 讨论 到 锁 机 制 。 

3. 对 工作 进行 调度 

现在 工作 已 经 被 创建 ， 我 们 可 以 调度 它 了 。 想 要 把 给 定 工 作 的 处 理 函 数 提交 给 缺 省 的 events 
工作 线程 ， 只 需 调 用 : 


schedule work (&work) ; 


work 马上 就 会 被 调度 ,一旦 其 所 在 的 处 理 纶 上 的 工作 者 线程 被 唤醒 ， 它 就 会 被 执行 。 
有 时 候 你 并 不 希望 工作 马上 就 被 执行 ， 而 是 希望 它 经 过 一 段 延迟 以 后 再 执行 。 在 这 种 情况 
下 ， 你 可 以 调度 它 在 指定 的 时 间 执 行 : 


schedule delayed work (gwork, delay),; 


这 时 ，&work 指向 的 work _struct 直到 delay 指定 的 时 钟 节拍 用 完 以 后 才 会 执行 。 在 第 10 章 
将 介绍 这 种 使 用 时 钟 节 拍 作为 时 间 单 位 的 方法 。 

4. 刷新 操作 

排 人 队列 的 工作 会 在 工作 者 线程 下 一 次 被 唤醒 的 时 候 执 行 。 有 时 ， 在 继续 下 一 步 工 作 之 前 ， 
你 必须 保证 一 些 操作 已 经 执行 完毕 了 。 这 一 点 对 模块 来 说 就 很 重要 ， 在 钊 载 之 前 ， 它 就 有 可 能 需 
要 调用 下 面 的 函数 。 而 在 内 核 的 其 他 部 分 ， 为 了 防止 竞争 条 件 的 出 现 ， 也 可 能 需要 确保 不 再 有 待 
处 理 的 工作 。 

出 于 以 上 目的 ， 内 核准 备 了 一 个 用 于 刷新 指定 工作 队列 的 国 数 : 


void flush scheduled work (void); 


函数 会 一 直 等 待 ， 直 到 队列 中 所 有 对 象 都 被 执行 以 后 才 返 回 。 在 等 待 所 有 待 处 理 的 工作 执行 
的 时 候 ， 该 函数 会 进入 休 虐 状态 ， 所 以 只 能 在 进程 上 下 文中 使 用 它 。 

注意 ， 该 函数 并 不 取消 任何 延迟 执行 的 工作 。 就 是 说 ， 任 何 通 过 schedule_delayed_work() 调 
度 的 工作 ， 如 采 其 延迟 时 间 未 结束 ， 它 并 不 会 因为 调用 flush_scheduled_work0 而 被 刷新 挥 。 取 
消 延迟 执行 的 工作 应 该 调用 : 

int cancel delayed work (struct work struct *work); 

这 个 函数 可 以 取消 任何 与 work_struct 相关 的 挂 起 工作 。 

5. 创建 新 的 工作 队列 

如 果 缺 省 的 队列 不 能 满足 你 的 需要 ， 你 应 该 创建 一 个 新 的 工作 队列 和 与 之 相应 的 工作 者 线 
程 。 由 于 这 么 做 会 在 每 个 处 理 器 上 都 创建 一 个 工作 者 线程 ， 所 以 只 有 在 你 明确 了 必须 要 靠 自 己 的 
一 套 线程 来 提高 性 能 的 情况 下 ， 再 创建 自己 的 工作 队列 。 

创建 一 个 新 的 任务 队列 和 与 之 相关 的 工作 者 线程 ， 你 只 需 调用 一 个 简单 的 函数 : 


struct workgueue struct *create workgqgueue (const char *name);} 
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name 参数 用 于 该 内 核 线程 的 命名 。 比 如 ， 缺 省 的 events 队列 的 创建 就 调用 的 是 : 


struct workqueue struct *keventd wq ; 
keventd wq = create workqueue ("events"); 


这 样 就 会 创建 所 有 的 工作 者 线程 (系统 中 的 每 个 处 理 器 都 有 一 个 )， 并 且 做 好 所 有 开始 处 理 
工作 之 前 的 准备 工作 。 

创建 一 个 工作 的 时 候 无 须 考虑 工作 队列 的 类 型 。 在 创建 之 后 ， 可 以 调用 下 面 列举 的 函数 。 这 
些 函 数 与 schedule work0 以 及 schedule_delayed_work0 相近 ， 唯 一 的 区 别 就 在 于 它们 针对 给 定 
的 工作 队列 而 不 是 缺 省 的 events 队列 进行 操作 。 


int queue work(struct workqueue struct *wq, struct work gstruct *work) 


int gqueue delayed work(struct workqueue struct *wq, 
struct work struct *work, 
unsigned long delay)} 


最 后 ， 你 可 以 调用 下 面 的 函数 刷新 指定 的 工作 队列 : 


flush workqueue (struct workqueue struct *wq); 


该 函数 和 前 面 讨论 过 的 flush_scheduled_work() 作用 相同 ， 只 是 它 在 返回 前 等 待 清空 的 是 给 
定 的 队列 。 


8.4.3 老 的 任务 队列 机 制 


像 BH 接口 被 软 中 断 和 tasklet 代替 一 样 ， 由 于 任务 队列 接口 存在 的 种 种 缺陷 ， 它 也 被 工作 
队列 接口 取代 了 。 像 tasklet 一 样 ， 任 务 队列 接口 (内 核 中 常常 称 作 tq) 其 实 也 和 进程 没有 什么 
相关 之 处 口 。 任 务 队列 接口 的 使 用 者 在 2.5 开发 版 中 分 为 两 部 分 ， 其 中 一 部 分 转向 了 使 用 tasklet， 
还 有 另外 一 部 分 继续 使 用 任务 队列 接口 。 而 目前 任务 队列 接口 剩余 的 部 分 已 经 演化 成 了 工作 队列 
接口 。 由 于 任务 队列 在 内 核 中 曾经 使 用 过 一 段 时 间 ， 出 于 了 解 历史 的 目的 ， 我 们 对 它 进行 一 个 大 
体 回顾 。 
任务 队列 机 制 通过 定义 一 组 队列 来 实现 其 功能 。 每 个 队列 都 有 自己 的 名 字 ， 比 如 调度 程序 队 

列 、 立 即 队列 和 定时 器 队列 。 不 同 的 队列 在 内 核 中 的 不 同 场 合 使 用 。keventd 内 核 线程 负责 执行 
调度 程序 队列 的 相关 任务 。 它 是 整个 工作 队列 接口 的 先驱 。 定 时 器 队列 会 在 系统 定时 器 的 每 个 时 
间 节 拍 时 执行 ， 而 立即 队列 能 够 得 到 双 倍 的 运行 机 会 ， 以 保证 它 能 “立即 ”执行 。 当 然 ， 还 有 其 
他 一 些 队 列 。 此 外 ， 你 还 可 以 动态 地 创建 自己 的 新 队列 。 

这 些 听 起 来 都 手 有 用 ,但 任务 队列 接口 实际 上 是 一 团 乱 麻 。 这 些 队 列 基本 上 都 是 些 随 意 创建 
的 抽象 概念 , 散 菇 在 内 核 各 处 ， 就 像 飘 散在 空气 中 。 唯 有 调度 队列 有 点 意义 ， 它 能 用 来 把 工作 推 
后 到 进程 上 下 文 完成 。 

任务 队列 的 另 一 好 处 就 是 接口 特别 简单 。 如 果 不 考 虑 这 些 队列 的 数量 和 执行 时 随心 所 欲 的 规 


9 下 半 部 的 各 种 命名 简直 可 以 算得 上 是 迷惑 内 核 开发 新 手 的 撒手 钢 ， 老实 说 ， 这 些 名 字 简 直 就 是 一 梦 ! 
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则 ， 它 的 接口 确实 够 简单 。 但 这 也 就 是 全 部 意义 所 在 了 一 一 任务 队列 剩 下 的 东西 乏善可陈 。 

许多 任务 队列 接口 的 使 用 者 都 已 经 转向 使 用 其 他 的 下 半 部 实现 机 制 了 ， 大 部 分 选择 了 
tasklet， 只 有 调度 程序 队列 的 使 用 者 在 苗 苗 支撑 。 最 终 ，keventd 代码 演化 成 了 我 们 今天 使 用 的 工 
作 队 列 机 制 ， 而 任务 队列 最 终 退 出 了 历史 舞台 。 


8.5 下 半 部 机 制 的 选择 


在 各 种 不 同 的 下 半 部 实现 机 制 之 间 做 出 选择 是 很 重要 的 。 在 当前 的 2.6 版 内 核 中 ， 有 三 种 可 
能 的 选择 ; 软 中 断 、tasklet 和 工作 队列 。tasklet 基于 软 中 断 实现 ， 所 以 两 者 很 相近 。 工 作 队 列 机 
制 与 它们 完全 不 同 ， 它 靠 内 核 线程 实现 。 

从 设计 的 角度 考虑 ， 软 中 断 提 供 的 执行 序列 化 的 保障 最 少 。 这 就 要 求 软 中 断 处 理 函 数 必须 格 
外 小 心地 采取 一 些 步 又 确保 共享 数据 的 安全 ， 两 个 甚至 更 多 相同 类 别 的 软 中 断 有 可 能 在 不 同 的 处 
理 器 上 同时 执行 。 如 果 被 考察 的 代码 本 身 多 线索 化 的 工作 就 做 得 非常 好 ， 比 如 网 络 子 系统 ， 它 完 
全 使 用 单 处 理 器 变量 ， 那 么 软 中 断 就 是 非常 好 的 选择 。 对 于 时 间 要 求 严 格 和 执行 频率 很 高 的 应 用 
来 说 ， 它 执行 得 也 最 快 。 

如 果 代 码 多 线索 化 考虑 得 并 不 充分 ， 那 么 选择 tasklet 意义 更 大 。 它 的 接口 非常 简单 ， 而 且 ， 
由 于 两 个 同 种 类 型 的 tasklet 不 能 同时 执行 ， 所 以 实现 起 来 也 会 简单 一 些 。tasklet 是 有 效 的 软 中 断 ， 
但 不 能 并 发 运行 。 驱 动 程序 开发 者 应 当 尽 可 能 选择 tasklet 而 不 是 软 中 断 ， 当 然 ， 如 果 准 备 利用 
每 一 处 理 器 上 的 变量 或 者 类 似 的 情形 ， 以 确保 软 中 断 能 安全 地 在 多 个 处 理 器 上 并 发 地 运行 ， 那 么 
还 是 选择 软 中 断 。 

如 果 你 需要 把 任务 推 后 到 进程 上 下 文中 完成 ， 那 么 在 这 三 者 中 就 只 能 选择 工作 队列 了 。 如 果 
进程 上 下 文 并 不 是 必须 的 条 件 〈 明 确 点 说 ， 就 是 如 果 并 不 需要 睡眠 )， 那 么 软 中 断 和 tasklet 可 能 
更 合适 。 工 作 队 列 造 成 的 开销 最 大 ， 因 为 它 要 牵扯 到 内 核 线程 甚至 是 上 下 文 切 换 。 这 并 不 是 说 工 
作 队 列 的 效率 低 ， 如 果 每 秒 钟 有 几 千 次 中 断 ， 就 像 网 络 子 系统 时 常 经 历 的 那样 ， 那 么 采用 其 他 的 
机 制 可 能 更 合适 一 些 。 尽 管 如 此 ， 针 对 大 部 分 情况 ， 工 作 队 列 都 能 提供 足够 的 支持 。 

如 果 讲 到 易于 使 用 ， 工 作 队 列 就 当仁不让 了 。 使 用 缺 省 的 events 队列 简直 不 费 吹 灰 之 力 。 
接 下 来 是 tasklet， 它 的 接口 也 很 简单 。 最 后 才 是 软 中 断 ， 它 必须 静态 创建 ， 并 且 需 要 慎重 考虑 其 
实现 。 

表 8-3 是 对 三 种 下 半 部 接口 的 比较 。 


表 8-3 对 下 半 部 的 比较 


下 半 部 顺序 执行 保障 

钦 中 上 没有 

tasklet 同类 型 不 能 同时 执行 

工作 队列 没有 (和 进程 上 下 文 一 样 被 调度 ) 


简单 地 说 ， 一 般 的 驱动 程序 的 编写 者 需要 做 两 个 选择 。 首 先 ， 你 是 不 是 需要 一 个 可 调度 的 实 
体 来 执行 需要 推 后 完成 的 工作 一 一 从 根本 上 来 说 ， 你 有 休眠 的 需要 吗 ? 要 是 有 ， 工 作 队 列 就 是 你 
的 唯一 选择 。 否 则 最 好 用 tasklet。 要 是 必须 专注 于 性 能 的 提高 ， 那 么 就 考虑 软 中 断 吧 。 
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8.6 在 下 半 部 之 间 加 锁 


到 现在 为 止 ， 我 们 还 没 讨论 过 锁 机 制 ， 这 是 一 个 非常 有 趣 且 广泛 的 话题 ， 我 将 在 第 9 章 和 第 
10 章 里 仔细 讨论 它 。 不 过 ， 在 这 里 还 是 应 该 对 它 的 重要 性 有 所 了 解 : 在 使 用 下 半 部 机 制 时 ， 即 
使 是 在 一 个 单 处 理 器 的 系统 上 ， 避 免 共 享 数据 被 同时 访问 也 是 至 关 重 要 的 。 记 住 ， 一 个 下 半 部 实 
际 上 可 能 在 任何 时 候 执 行 。 如 果 你 对 锁 机 制 一 无 所 知 的 话 ， 你 也 可 以 在 读 完 第 9 章 和 第 10 章 以 
后 再 回 过 头 来 看 这 部 分 。 

使 用 tasklet 的 一 个 好 处 在 于 ， 它 自己 负责 执行 的 序列 化 保障 : 两 个 相同 类 型 的 tasklet 
不 允许 同时 执行 ， 即 使 在 不 同 的 处 理 器 上 也 不 行 。 这 意味 着 你 无 须 为 intra-tasklet 昌 的 同步 问 
题 操 心 了 。tasklet 之 间 的 同步 《就 是 当 两 个 不 同类 型 的 tasklet 共享 同一 数据 时 ) 需要 正确 使 
用 锁 机 制 。 

如 果 进 程 上 下 文 和 一 个 下 半 部 共享 数据 ， 在 访问 这 些 数据 之 前 ， 你 需要 禁止 下 半 部 的 处 理 并 
得 到 锁 的 使 用 权 。 做 这 些 是 为 了 本 地 和 SMP 的 保护 并 且 防 止 死 锁 的 出 现 。 

如 果 中 断 上 下 文 和 一 个 下 半 部 共享 数据 ， 在 访问 数据 之 前 ， 你 需要 禁止 中 断 并 得 到 锁 的 使 用 
权 。 所 做 的 这 些 也 是 为 了 本 地 和 SMP 的 保护 并 且 防 止 死 锁 的 出 现 。 

任何 在 工作 队列 中 被 共享 的 数据 也 需要 使 用 锁 机 制 。 其 中 有 关 锁 的 要 点 和 在 一 般 内 核 代 码 中 
没什么 区 别 ， 因 为 工作 队列 本 来 就 是 在 进程 上 下 文中 执行 的 。 

在 第 9 章 里 ， 我 们 会 揭示 锁 的 奥妙 。 而 在 第 10 章 中 ， 我 们 将 讲述 内 核 的 加 锁 原 语 。 这 两 章 
会 描述 如 何 保护 下 半 部 使 用 的 数据 。 


8.7 禁止 下 半 部 


一 般 单 纯 禁 目下 半 部 的 处 理 是 不 够 的 。 为 了 保证 共享 数据 的 安全 ， 更 常见 的 做 法 是 ， 先 得 到 
一 个 锁 然 后 再 禁止 下 半 部 的 处 理 。 蝶 动 程序 中 通常 使 用 的 都 是 这 种 方法 ， 在 第 10 章 会 详细 介绍 。 
然而 ， 如 果 你 编写 的 是 内 核 的 核心 代码 ， 你 也 可 能 仅 需 要 禁止 下 半 部 就 可 以 了 。 

如 果 需 要 禁止 所 有 的 下 半 部 处 理 〈 明 确 点 说 ， 就 是 所 有 的 软 中 断 和 所 有 的 tasklet)， 可 以 调 
用 local_bh diasble0 函数 。 人 允许 下 半 部 进行 处 理 ， 可 以 调用 local_bh_enable0 函数 。 没 错 ， 这 些 函 
数 的 命名 也 有 问题 ; 可 是 既然 BH 接口 早 就 让 位 给 软 中 断 了 ， 和 那么 谁 又 会 去 改 这 些 名 称 呢 ? 表 8-4 
是 这 些 函 数 的 一 份 摘要 。 


表 8-4 下 半 部 机 制 控制 函数 的 清单 


六 数 描 述 
void local bh disable(} 禁止 本 地 处 理 器 的 软 中 断 和 tasklet 的 处 理 
void local bh enable() 激活 本 地 处 理 器 的 软 中 断 和 tasklet 的 处 理 


这 些 函 数 有 可 能 被 嵌 套 使 用 一 一 最 后 被 调用 的 local_bh_enable(0 最 终 激 活 下 半 部 。 比 如 ， 第 
一 次 调用 local_bh_disableO0， 则 本 地 软 中 断 处 理 被 禁止 ; 如 果 local bh_disable0 被 调用 三 次 ， 则 


日 ”这 个 词语 是 我 造 的 。 一 一 译 者 注 
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本 地 处 理 仍然 被 禁止 ; 只 有 当 第 四 次 调用 local_bh_enable( 时 ， 软 中 断 处 理 才 被 重新 激活 。 

国 数 通过 preempt count (很 有 意思 ， 还 是 这 个 计数 器 ， 内 核 抢 占 的 时 候 用 的 也 是 它 ) 为 每 
个 进程 维护 一 个 计数 器 幻 。 当 计数 器 变 为 0 时 ， 下 半 部 才能 够 被 处 理 。 因 为 下 半 部 的 处 理 已 经 被 
禁止 ， 所 以 local bh_enable0 还 需要 检查 所 有 现存 的 待 处 理 的 下 半 部 并 执行 它们 。 

这 些 函 数 与 硬件 体系 结构 相关 ， 它 们 位 于 <asmy/softirq.h> 中 ， 通 常 由 一 些 复杂 的 宏 实 现 。 下 
面 是 为 那些 好 奇 的 人 谁 备 J 了 C 语言 的 近似 摘 述 : 

A 

* 通过 增加 preempt_count 禁止 本 地 下 半 部 
local bh disable (void) 


{ 
atruct thread info *t = current thread info(),; 
t->preempt count += SOFTIROQ OFFSET; 
} 
让 寺 
* 减少 Preempt_count 如 果 该 返回 值 为 0， 将 导致 自动 激活 下 半 部 
宣 


* 执行 挂 起 的 下 半 部 
wi 
void local bh enable {void) 


struct thread info *t = current thread info(}; 


t->preempt count -= SOFTIRQ OFFSET; 

/二 

* preempt_count 是 否 为 0， 另 外 是 否 有 挂 起 的 下 半 部 ， 如 果 都 满足 ， 则 执行 待 执 
* 行 的 下 半 部 


村 
if (unlikely(!t->preempt _ Count && softirqg pending{lsmp processor ia()))) 
do saoftirqgq(};} 


} 


这 些 函 数 并 不 能 禁止 工作 队列 的 执行 。 因 为 工作 队列 是 在 进程 上 下 文中 运行 的 ， 不 会 涉及 
异步 执行 的 问题 ， 所 以 也 就 没有 必要 禁止 它们 执行 。 由 于 软 中 断 和 tasklet 是 异步 发 生 的 (就 是 
说 ， 在 中 断 处 理 返 回 的 时 候 )， 所 以 ， 内 核 代 码 必 须 禁 止 它 们 。 另 一 方面 ， 对 于 工作 队列 来 说 ， 
它 保 护 共 享 数据 所 做 的 工作 和 其 他 任何 进程 上 下 文中 所 做 的 都 差不多 。 第 9 章 和 第 10 章 将 揭 
示 其 中 的 细 市 。 


8.8 小 结 


在 本 章 中 ， 我 们 涵盖 了 用 于 延迟 Linux 内 核 工作 的 三 种 机 制 : 软 中 断 、tasklet 和 工作 队列 。 
我 们 考察 了 其 设计 和 实现 ， 讨 论 了 如 何 把 这 些 机 制 应 用 到 代码 中 ， 也 调侃 了 易于 混淆 的 命名 。 为 
了 完整 起 见 ， 我 们 也 考察 了 曾经 的 下 半 部 机 制 : BH 和 任务 队列 一 一 这 些 用 在 以 前 的 Linux 内 核 
版 本 中 。 


号 ”实际 上 ， 中 断 和 下 半 部 子 系统 都 用 到 了 这 个 计数 器 。 其 实 ， 在 Linux 中 ， 每 个 任务 都 有 的 单个 计数 器 代表 了 
任务 的 原子 性 。 在 类 似 调 试 sleeping-while-atomic 之 类 的 错误 时 ， 这 种 做 法 已 被 证 明 是 非常 有 效 的 。 
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因为 下 半 部 中 相当 程度 地 用 到 了 同步 和 并 发 ， 所 以 本 章 谈 了 很 多 相关 的 话题 。 我 们 其 
至 围绕 本 章 还 讨论 了 禁止 下 半 部 的 问题 ， 这 是 由 并 发 保护 引起 的 ， 这 一 话题 到 此 只 是 刚刚 
引入 。 第 9 章 将 从 理论 上 讨论 内 核 同 步 和 并 发 ， 为 理解 这 一 问题 的 本 质 打 下 基础 。 第 10 章 
将 讨论 我 们 心爱 的 内 核 为 解决 这 一 问题 所 提供 的 具体 接口 。 以 这 两 章 为 基石 ， 你 的 梦想 就 
得 以 实现 。 


第 (9) 章 
内 核 同 步 介 绍 


在 使 用 共享 内 存 的 应 用 程序 中 ， 程 序 员 必须 特别 留意 保护 共享 资源 ， 防 止 共享 资源 并 发 访 
间 。 内 核 也 不 例外 。 共 享 资源 之 所 以 要 防止 并 发 访问 ， 是 因为 如 果 多 个 执行 线程 号 同时 访问 和 操 
作 数 据 ， 就 有 可 能 发 生 各 线程 之 间 相 互 覆 盖 共 享 数据 的 情况 ， 造 成 被 访问 数据 处 于 不 一 致 状态 。 
并 发 访问 共享 数据 是 造成 系统 不 稳定 的 一 类 隐患 ， 而 且 这 种 错误 一 般 难以 跟踪 和 调试 一 一 所 以 首 
先 应 该 认识 到 这 个 问题 的 重要 性 。 

要 做 到 对 共享 资源 的 恰当 保护 往往 很 困难 。 多 年 之 前 ， 在 Linux 还 未 支持 对 称 多 处 理 器 的 
时 候 ， 避 免 并 发 访问 数据 的 方法 相对 来 说 比较 简单 。 在 单一 处 理 器 的 时 候 ， 只 有 在 中 断 发 生 的 时 
候 ， 或 在 内 核 代 码 明 确 地 请 求 重新 调度 、 执 行 另 一 个 任务 的 时 候 ， 数 据 才 可 能 被 并 发 访问 。 因 
此 早期 内 核 开 发 工作 相 比 如 今 要 简单 许多 ! 

但 当年 的 太平 日 子 一 去 不 复 返 了 ， 从 2.0 版 开始 ， 内 核 就 开始 支持 对 称 多 处 理 器 了 ， 而 且 从 
那 以 后 对 它 的 支持 不 断 地 加 强 和 完善 。 支 持 多 处 理 器 意味 着 内 核 代码 可 以 同时 运行 在 两 个 或 更 多 
的 处 理 器 上 。 因 此 ， 如 果 不 加 保护 ， 运 行 在 两 个 不 同 处 理 器 上 的 内 核 代 码 完全 可 能 在 同一 时 刻 里 
并 发 访问 共享 数据 。 随 着 2.6 版 内 核 的 出 现 ，Linux 内 核 已 发 展 成 抢占 式 内 核 ， 这 意味 着 (当然 ， 
还 是 指 不 加 保护 的 情况 下 ) 调度 程序 可 以 在 任何 时 刻 抢 占 正在 运行 的 内 核 代码 ， 重 新 调度 其 他 的 
进程 执行 。 现 在 ， 内 核 代码 中 有 不 少 部 分 都 能 够 同步 执行 ， 而 它们 都 必须 妥善 地 保护 起 来 。 

本 章 我 们 先 提纲 者 领 式 地 讨论 操作 系统 内 核 中 的 并 发 和 同步 问题 ， 第 10 章 我 们 将 详细 介绍 
Linux 内 核 为 解决 同步 问题 和 防止 产生 竞争 条 件 而 提供 的 机 制 及 接口 。 


9.1 临界 区 和 竞争 条 件 


所 谓 临界 区 (也 称 为 临界 段 ， 就 是 访问 和 操作 共享 数据 的 代码 段 。 多 个 执行 线程 并 发 访问 
同一 个 资源 通常 是 不 安全 的 ， 为 了 避免 在 临界 区 中 并 发 访问 ， 编 程 者 〈 也 就 是 你 ) 必须 保证 这 
些 代 码 原 子 地 执行 一 一 也 就 是 说 ， 操 作 在 执行 结束 前 不 可 被 打 断 ， 就 如 同 整个 临界 区 是 一 个 
不 可 分 割 的 指令 一 样 。 如 果 两 个 执行 线程 有 可 能 处 于 同一 个 临界 区 中 同时 执行 ， 那 么 这 就 是 
程序 包含 的 一 个 bug。 如 果 这 种 情况 确实 发 生 了 ， 我 们 就 称 它 是 竞争 条 件 (race conditions)， 这 
样 命名 是 因为 这 里 会 存在 线程 竞争 。 这 种 情况 出 现 的 机 会 往往 非常 小 一 一 就 是 因为 竞争 引起 
的 错误 非常 不 易 重 现 ， 所 以 调试 这 种 错误 才 会 非常 困难 。 避 免 并 发 和 防止 竞争 条 件 称 为 同步 
(synchronization ) 。 





日 ”术语 执行 线程 〈thread execution〉 指 任何 正在 执行 的 代码 实例 ， 比 如 ， 一 个 在 内 核 执行 的 进程 、 一 个 中 断 处 理 
程序 或 一 个 内 核 线程 。 在 本 章 中 将 执行 线程 简称 为 线程 ， 记 住 ， 这 个 术语 指 代 的 是 任何 正在 执行 的 代码 。 
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9.1.1 为 什么 我 们 需要 保护 


为 了 认 清 同步 的 必要 性 ， 我 们 首先 要 明白 临界 区 无 处 不 在 。 作 为 第 一 个 例子 ， 让 我 们 考察 一 
个 现实 世界 的 情况 : ATM (自动 柜员 机 ， 或 叫 自动 提 款 机 )。 

目 动 提 和 鞭 机 所 进行 的 主要 操作 就 是 从 个 人 银行 账户 取 钱 。 某 人 走 到 机 器 前 ， 插 和 人 ATM 卡 ， 
输入 密码 作为 验证 ， 选 择 取款 ,输入 金额 ， 敲 确认 ， 取 出 钱 ， 然 后 发 信息 通知 本 人 。 

当 用 户 要 求 取 某 一 特定 的 金额 后 ， 提 款 机 需要 确保 在 其 账户 上 的 确 有 那么 多 钱 。 如 果 有 ， 取 
款 机 就 要 从 现 有 的 总 额 中 扣除 取款 额 。 实 现 这 一 描述 的 代码 如 下 : 


int total = get total from account () ; /* 账户 上 的 总 额 */ 
int withdrawal = get withdrawal amount(); /* 用 户 要 求 的 取款 额 */ 


/* 检查 用 户 账户 上 是 否 有 足够 的 金额 */ 

if (total < withdrawal) I 
error("You do not have that meh money!")} 
return 一】 


} 
/* 好 啦 ， 用 户 有 足够 的 金额 ， 从 总 额 中 扣除 取款 额 */ 


total -= withdrawal; 
update total funds {total}); 


/* 把 钱 给 用 户 */ 

spit cout money (withdrawal); 

现在 让 我 们 假定 在 用 户 账户 上 的 另 一 个 扣 款 操作 同时 发 生 。 看 看 扣 款 是 如 何 同 时 发 生 的 ; 假 
定 用 户 的 配偶 在 另 一 台 ATM 上 开始 另外 的 取款 ; 而 这 和 上 述 扣 款 同 时 进行 一 一 或 者 以 电子 形式 
从 账户 转 出 资金 ， 或 者 是 银行 从 账户 上 扣除 某 一 费用 (因为 现在 的 银行 总 是 这 么 干 )， 或 者 是 其 
他 任何 形式 的 扣 款 。 

正在 取款 的 两 个 系统 都 会 执行 我 们 刚刚 看 到 的 类 似 的 代码 : 首先 检查 扣 款 是 否 可 能 ， 然 后 
计算 新 的 总 额 ， 最 后 进行 实际 的 扣 款 。 现 在 让 我 们 虚拟 一 些 数字 。 假 定 第 一 次 从 ATM 扣 款 额 是 
$100， 第 二 次 扣除 银行 申请 费 $10 一 一 因为 客户 走 入 了 银行 。 假 定 客户 在 银行 总 共有 $105。 显 
然 ， 如 果 账 户 不 出 现 赤 字 ， 这 两 个 操作 中 有 一 个 就 无 法 完成 。 

你 可 能 希望 发 生 的 顺序 是 这 样 的 : 收费 事务 先 发 生 。$10 小 于 $105， 因 此 ， 从 105 中 减 去 
10 得 到 新 的 总 额 95， 这 $10 就 装 在 银行 的 口袋 里 。 之 后 ，ATM 取款 发 生 ， 但 未 取 到 ， 因 为 $95 
小 于 $100 。 

在 竞争 的 环境 下 ， 实 际 生 活 可 能 更 有 趣 。 假 定 两 个 事务 几乎 同时 开始 。 两 个 事务 都 验证 是 否 
有 足够 的 金额 存在 : $105 既 大 于 $100 ， 也 大 于 $10， 所 以 ， 两 个 条 件 都 满足 。 于 是 ， 取 款 过 程 
从 $105 减 去 $100， 剩 余 $5。 收 费事 务 也 如 法 炮制 ， 从 $105 减 去 $10， 剩 余 $95。 此 刻 ， 收 费事 
务 也 更 新 新 的 总 额 ， 结 果 得 到 $95。 这 可 是 余额 呀 ! 

显而易见 ， 金 融 机 构 必 须 确 保 类 似 情况 决 不 发 生 。 他 们 必须 在 某 些 操作 期 间 对 账户 加 锁 ， 确 
保 每 个 事务 相对 其 他 任何 事务 的 操作 是 原子 性 的 。 这 样 的 事务 必须 完整 地 发 生 ， 要 么 干脆 不 发 
生 ， 但 是 决 不 能 打 断 。 


内 规 同 落 介 络 133 


9.1.2 单个 变量 


现在 ， 让 我 们 看 一 个 特殊 计算 的 例子 。 考 虑 一 个 非常 简单 的 共享 资源 : 一 个 全 局 整 型 变量 和 


一 个 简单 的 临界 区 ， 其 中 的 操作 仅仅 是 将 整 型 变量 的 值 增加 1。 


该 操作 可 以 转化 成 类 似 于 下 面 动作 的 机 器 指令 序列 : 
得 到 当前 变量 i 的 值 并 且 拷 贝 到 一 个 寄存 器 中 


将 寄存 器 中 的 值 加 1 
把 i 的 新 值 写 回 到 内 存 中 


现在 假定 有 两 个 执行 线程 同时 进入 这 个 临界 区 ， 如 果 i 的 初始 值 是 7， 那 么 ， 我 们 所 期 望 的 


结果 应 该 像 下 面 这 样 〈( 每 一 行 代表 一 个 时 间 单 元 ) : 


线程 1 线程 2 
获得 i (7) 一 

增加 1(7=-»=8}) Ep 

写 回 i (8) 3 

获得 研 {8) 
增加 i {8->9) 
一 写 回 奔 (9) 


正如 所 期 望 的 ，7 被 两 个 线程 分 别 加 1 变 为 9。 但是， 实际 的 执行 序列 却 可 能 如 下 : 


线程 1 线程 2 
获得 i(7) 获得 研 (7) 
增加 i{7->8) 一 

一 增加 (7->8) 
写 回 i (8) 一 

es 号 回 i (8) 


如 果 两 个 执行 线程 都 在 变量 i 值 增加 前 读 取 它 的 初 值 ， 进 而 又 分 别 增加 变量 i 的 值 ， 最 后 由 
保存 该 值 ， 那 么 变量 i 的 值 就 变 成 了 8， 而 变量 i 的 值 本 该 是 9 的 。 这 是 最 简单 的 临界 区 例子 ， 
幸好 对 于 这 种 简单 竞争 条 件 的 解决 方法 也 同样 简单 一 一 我 们 仅仅 需要 将 这 些 指令 作为 一 个 不 可 分 
割 的 整体 来 执行 就 万 事 大 吉 了 。 多 数 处 理 器 都 提供 了 指令 来 原子 地 读 变 量 、 增 加 变量 ， 然 后 再 写 
回 变量 ， 使 用 这 样 的 指令 就 能 解决 一 些 问题 。 使 用 这 个 原子 指令 唯一 可 能 的 结果 是 : 


线程 1 线程 2 
增加 (7->8) 一 一 

一 增加 宇 (48->9) 
或 者 是 相反 : 

线程 1 线程 2 

es 增加 i(7->8) 
增加 i (8->9) = 


两 个 原子 操作 交错 执行 根本 就 不 可 能 发 生 ， 因 为 处 理 器 会 从 物理 上 确保 这 种 不 可 能 。 使 用 
这 样 的 指令 会 缓解 这 种 问题 ， 内 核 也 提供 了 一 组 实现 这 些 原子 操作 的 接口 ， 我 们 将 在 第 10 章 


讨论 它们 。 
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9.2 ”加 锁 


现在 我 们 来 讨论 一 个 更 为 复杂 的 竞争 条 件 ， 相 应 的 解决 方法 也 更 为 复杂 。 假 设 需要 处 理 一 
个 队列 上 的 所 有 请 求 。 我 们 假定 该 队列 是 通过 链表 得 以 实现 ， 链 表 中 的 每 个 结 点 就 代表 一 个 请 
求 。 有 两 个 函数 可 以 用 来 操作 此 队列 : 一 个 函数 将 新 请 求 添 加 到 队列 尾部 ， 另 一 个 函数 从 队列 头 
删除 请 求 ， 然 后 处 理 它 。 内 核 各 个 部 分 都 会 调用 这 两 个 国 数 ， 所 以 内 核 会 不 断 地 在 队列 中 加 入 请 
求 ， 从 队列 中 删除 和 处 理 请 求 。 对 请 求 队列 的 操作 无 疑 要 用 到 多 条 指令 。 如 果 一 个 线程 试图 读 取 
队列 ， 而 这 时 正好 另 一 个 线程 正在 处 理 访 队列， 那么 读 取 线 程 就 会 发 现 队列 此 肇 正 处 于 不 一 致 状 
态 。 很 明显 ， 如 果 允 许 并 发 访问 队列 ， 就 会 产生 危害 。 当 共享 资源 是 一 个 复杂 的 数据 结构 时 ， 竞 
争 条 件 往往 会 使 该 数据 结构 遭 到 破坏 。 

表面 上 看 ， 这 种 情况 好 像 没有 一 个 好 的 方法 来 解决 ， 一 个 处 理 器 读 取 队 列 的 时 候 ， 我 们 怎么 
能 禁止 另 一 个 处 理 器 更 新 队列 呢 ? 虽 然 有 些 体系 结构 提供 了 简单 的 原子 指令 ， 实 现 算术 运算 和 比 
较 之 类 的 原子 操作 ， 但 让 体系 结构 提供 专门 的 指令 ， 对 像 上 例 中 那样 的 不 定 长 度 的 临界 区 进行 保 
护 ， 就 强人 所 难 了。 我 们 需要 一 种 方法 确保 一 次 有 且 只 有 一 个 线程 对 数据 结构 进行 操作 ， 或 者 当 
另 一 个 线程 在 对 临界 区 标记 时 ， 就 禁止 (或 者 说 锁定 ) 其 他 访问 。 

锁 提 供 的 就 是 这 种 机 制 : 它 就 如 同一 把 门 锁 ， 门 后 的 房间 可 想象 成 一 个 临界 区 。 在 一 个 指定 
时 间 内 ， 房 间 里 只 能 有 一 个 执行 线程 存在 ， 当 一 个 线程 进入 房间 后 ， 它 会 锁 住 身后 的 房 门 ; 当 它 
结束 对 共享 数据 的 操作 后 ， 就 会 走出 房 旧 ， 打 开门 锁 。 如 果 男 一 个 线程 在 房 门 上 锁 时 来 了 ,, 那么 
它 就 必须 等 待 房间 内 的 线程 出 来 并 打开 门 锁 后 ， 才 能 进入 房间 。 这 样 ， 线 程 持 有 镇 ， 而 锁 保 护 了 
数据 。 

前 面 例子 中 讲 到 的 请 求 队列 ， 可 以 使 用 一 个 单独 的 锁 进行 保护 。 每 当 有 一 个 新 请 求 要 加 入 队 
列 ， 线 程 会 首先 占 住 锁 ， 然 后 就 可 以 安全 地 将 请 求 加 入 到 队列 中 ， 结 束 操作 后 再 释放 该 锁 ; 同样 
当 一 个 线程 想 从 请 求 队列 中 删除 一 个 请 求 时 ， 也 需要 先 占 住 锁 ， 然 后 才能 从 队列 中 读 取 和 删除 请 
求 ， 而 且 在 完成 操作 后 也 必须 释放 锁 。 任 何 要 访问 队列 的 其 他 线程 也 类 似 ， 必 须 占 住 锁 后 才能 进 
行 操作 。 因 为 在 一 个 时 刻 只 能 有 一 个 线程 持 有 锁 ， 所 以 在 一 个 时 刻 只 有 一 个 线程 可 以 操作 队列 。 
如 果 一 个 线程 正在 更 新 队列 时 ， 另 一 个 线程 出 现 了 ， 则 第 二 个 线程 必须 等 待 第 一 个 线程 释放 锁 ， 
它 才 能 继续 进行 。 由 此 可 见 锁 机 制 可 以 防止 并 发 执行 ， 并 且 保护 队列 不 受 竞争 条 件 的 影响 。 

任何 要 访问 队列 的 代码 首先 都 需要 占 住 相 应 的 锁 ， 这 样 该 锁 就 能 阻止 来 自 其 他 执行 线程 的 并 
发 访问 : 


线程 1 线程 2 

试图 锁定 队列 试图 锁定 队列 

成 功 : 获得 销 失败 : 等 待 … 

访问 队列 … 等 待 … 

为 队列 解除 锁 等 待 … 

成 功 : 获得 锁 
访问 队列 … 
为 队列 解除 锁 


请 注意 锁 的 使 用 是 自愿 的 、 非 强制 的 ， 它 完全 属于 一 种 编程 者 自选 的 编程 手段 。 没 有 什么 可 
以 强制 编程 者 在 操作 我 们 虚构 的 队列 时 必须 使 用 锁 。 当 然 ， 如 果 不 这 人 么 做 ， 无 疑 会 造成 竞争 条 件 
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而 破坏 队列 。 

锁 有 多 种 多 样 的 形式 ， 而 且 加 锁 的 粒度 范围 也 各 不 相同 一 一 Linux 自身 实现 了 几 种 不 同 的 
锁 机 制 。 各 种 锁 机 制 之 间 的 区 别 主要 在 于 : 当 锁 已 经 被 其 他 线程 持 有 ， 因 而 不 可 用 时 的 行为 表 
现 一 一 一 些 锁 被 争 用 时 会 简单 地 执行 忙 等 待 号 ， 而 另外 一 些 锁 会 使 当前 任务 睡眠 直到 锁 可 用 为 
止 。 第 10 章 我 们 将 讨论 Linux 中 不 同 锁 之 间 的 行为 差别 及 它们 的 接口 。 

机 灵 的 读者 此 时 会 尖 叫 起 来 ， 锁 根本 解决 不 了 什么 问题 ， 它 只 不 过 是 把 临界 区 缩小 到 加 锁 和 
开锁 之 间 (也 许 更 小 ) 的 代码 ， 但 是 仍然 有 潜在 的 竞争 ! 所 幸 ， 锁 是 采用 原子 操作 实现 的 ， 而 原 
子 操作 不 存在 竞争 。 单 一 指令 可 以 验证 它 的 关键 部 分 是 否 抓 住 ， 如 果 没 有 的 话 ， 就 抓 住 它 。 其 实 
现 是 与 具体 的 体系 结构 密切 相关 的 ， 但 是 ， 几 乎 所 有 的 处 理 器 都 实现 了 测试 和 设置 指令 ， 这 一 指 
令 测 试 整数 的 值 ， 如 果 其 值 为 0， 就 设置 一 新 值 。0 意味 着 开销 。 在 流行 的 x86 体系 结构 中 ， 锁 
的 实现 也 不 例外 ， 它 使 用 了 称 为 compare 和 exchange 的 类 似 指令 。 


9.2.1 造成 并 发 执行 的 原因 


用 户 空间 之 所 以 需要 同步 ， 是 因为 用 户 程 序 会 被 调度 程序 抢占 和 重新 调度 。 由 于 用 户 进程 可 
能 在 任何 时 刻 被 抢占 ， 而 调度 程序 完全 可 能 选择 另 一 个 高 优先 级 的 进程 到 处 理 器 上 执行 ， 所 以 就 
会 使 得 一 个 程序 正 处 于 临界 区 时 ， 被 非 自愿 地 抢占 了 。 如 果 新 调度 的 进程 随后 也 进入 同一 个 临界 
区 《比如 说 ， 这 两 个 进程 要 操作 共享 的 内 存 ， 或 者 向 同一 个 文件 描述 符 中 写 入 )， 前 后 两 个 进程 
相互 之 间 就 会 产生 竞争 。 男 外 ， 因 为 信号 处 理 是 异步 发 生 的 ， 所 以 ， 即 使 是 单线 程 的 多 个 进程 共 
享 文 价 ， 或 者 在 一 个 程序 内 部 处 理 信号 ， 也 有 可 能 产生 竞争 条 件 。 这 种 类 型 的 并 发 操作 一 一 这 里 
其 实 两 者 并 不 真是 同时 发 生 的 ， 但 它们 相互 交叉 进行 ， 所 以 也 可 称 作伪 并 发 执行 。 

如 果 你 有 一 台 支 持 对 称 多 处 理 器 的 机 器 ， 那 么 两 个 进程 就 可 以 真正 地 在 临界 区 中 同时 执行 
了 ， 这 种 类 型 称 为 真 并 发 。 虽 然 真 并 发 和 伪 并 发 的 原因 和 含义 不 同 ， 但 它们 都 同样 会 造成 竞争 条 
件 ， 而 且 也 需要 同样 的 保护 。 

内 核 中 有 类 似 可 能 造成 并 发 执行 的 原因 。 它 们 是 : 

* 中断 一 一 中 断 几 乎 可 以 在 任何 时 刻 异 步 发 生 ， 也 就 可 能 随时 打 断 当前 正在 执行 的 代码 。 

" 软 中 断 和 tasklet 一 一 内 核能 在 任何 时 刻 唤 醒 或 调度 软 中 新 和 tasklet， 打 断 当 前 正在 执行 

的 代码 。 

* 内核 抢占 一 一 因为 内 核 具有 抢占 性 ， 所 以 内 核 中 的 任务 可 能 会 被 另 一 任务 抢占 。 

* 睡眠 及 与 用 户 空间 的 同步 一 一 在 内 核 执行 的 进程 可 能 会 睡眠 ， 这 就 会 唤醒 调度 程序 ， 从 而 

导致 调度 一 个 新 的 用 户 进程 执行 。 

"对称 多 处 理 一 一 两 个 或 多 个 处 理 器 可 以 同时 执行 代码 。 

对 内 核 开 发 者 来 说 ， 必 须 理解 上 述 这 些 并 发 执行 的 原因 ， 并 且 为 它们 事先 做 足 淮 备 工 作 。 如 
休 在 一 段 内 核 代码 操作 某 资源 的 时 候 系 统 产生 了 一 个 中 断 ， 而 且 该 中 断 的 处 理 程 序 还 要 访问 这 一 
资源 ， 这 就 是 一 个 bug ; 类 似 地 ， 如 果 一 段 内 核 代码 在 访问 一 个 共享 资源 期 间 可 以 被 抢占 ， 这 也 
是 一 个 bug ; 还 有 ， 如 果 内 核 代码 在 临界 区 里 睡眠 ， 那 简直 就 是 鼓掌 欢迎 竞争 条 件 的 到 来 。 最 后 








全 ”也 就 是 说 ， 反 复 处 于 一 个 循环 中 ， 不 断 检 测 锁 状态 ， 等 待 锁 变 为 可 用 。 
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还 要 注意 ， 两 个 处 理 器 绝对 不 能 同时 访问 同一 共享 数据 。 当 我 们 清楚 什么 样 的 数据 需要 保护 时 ， 
提供 锁 来 保护 系统 稳定 也 就 不 难 做 到 了 。 然 而 ， 真 正 困难 的 就 是 发 现 上 述 的 潜在 并 发 执行 的 可 
能 ， 并 有 意识 地 采取 某 些 措施 来 防止 并 发 执行 。 

我 们 要 重申 这 点 ， 因 为 它 实 在 是 很 重要 。 其 实 ， 真 正 用 锁 来 保护 共享 资源 并 不 困难 ， 尤 其 
是 在 设计 代码 的 早期 就 这 么 做 了 ， 事 情 就 更 简单 了 。 辨 认 出 真正 需要 共享 的 数据 和 相应 的 临界 
区 ， 才 是 真正 有 挑战 性 的 地 方 。 要 记 住 ， 最 开始 设计 代码 的 时 候 就 要 考虑 加 入 锁 ， 而 不 是 事后 
才 想 到 。 如 果 代 码 已 经 写 好 了 ， 再 在 其 中 找到 需要 上 锁 的 部 分 并 向 其 中 追加 锁 ， 是 非常 困难 的 ， 
结果 也 往往 不 尽 如 人 和信 意 。 所 以 ， 避 免 这 种 亡羊补牢 的 做 法 是 : 在 编写 代码 的 开始 阶段 就 要 设计 恰 
当 的 锁 。 

在 中 断 处 理 程序 中 能 避免 并 发 访问 的 安全 代码 称 作 中 断 安 全 代码 (interrupt-saft)， 在 对 称 多 
处 理 的 机 器 中 能 避免 并 发 访问 的 安全 代码 称 为 SMP 安全 代码 (SMP-safe) , 在 内 核 抢占 时 能 避免 
并 发 访问 的 安全 代码 称 为 抢占 安全 代码 中 (preempt-safe )。 在 第 10 章 会 重点 讲述 为 了 提供 同步 
和 避免 所 有 上 述 竞 争 条 件 ， 内 核 所 使 用 的 实际 方法 。 


9.2.2 了 解 要 保护 些 什 么 


找 出 哪些 数据 需要 保护 是 关键 所 在 。 由 于 任何 可 能 被 并 发 访问 的 代码 都 几乎 无 例外 地 需 
要 保护 ， 所 以 寻找 哪些 代码 不 需要 保护 反而 相对 更 容易 些 ， 我 们 也 就 从 这 里 人 手 。 执 行 线程 的 
局 部 数据 仅仅 被 它 本 身 访 问 ， 显 然 不 需要 保护 ， 比 如 ， 局 部 自动 变量 (还 有 动态 分 配 的 数据 结 
构 ， 其 地 址 仅 存 放 在 堆栈 中 ) 不 需要 任何 形式 的 锁 ， 因 为 它们 独立 存在 于 执行 线程 的 栈 中 。 类 
似 的 ， 如 果 数 据 只 会 被 特定 的 进程 访问 ， 那 么 也 不 需要 加 锁 (因为 进程 一 次 只 在 一 个 处 理 器 上 
执行 )。 

到 底 什 么 数据 需要 加 锁 呢 ? 大 多 数 内 核 数据 结构 都 需要 加 锁 ! 有 一 条 很 好 的 经 验 可 以 帮助 我 
们 判断 : 如 果 有 其 他 执行 线程 可 以 访问 这 些 数据 ， 那 么 就 给 这 些 数 据 加 上 某 种 形式 的 锁 ; 如 果 任 
何其 他 什么 东西 都 能 看 到 它 ， 那 么 就 要 锁 住 它 。 记 住 : 要 给 数据 而 不 是 给 代码 加 锁 。 


> 配置 选项 : SMP 与 UP 

因为 Linux 内 核 可 在 编译 时 配置 ， 所 以 你 可 以 针对 指定 机 器 进行 内 核 裁 剪 。 更 重要 的 

是 ，CONFIG_SMP 配置 选项 控制 内 核 是 否 支持 SMP。 许 多 加 锁 问 题 在 单 处 理 器 上 是 不 存在 

引 的 ， 因 而 当 CONFIG_SMP 没 被 设置 时 ， 不 必要 的 代码 就 不 会 被 编 人 针对 单 处 理 器 的 内 核 映像 

“ 中。 这样 做 可 以 使 单 处 理 器 机 器 避免 使 用 自 旋 锁 带 来 的 开销 。 同 样 的 技巧 也 适用 于 CONFIG_ 

. PREEMPT (允许 内 核 抢 占 的 配置 选项 )。 这 种 设计 真 的 很 优越 一 一 内 核 只 用 维护 一 些 简洁 
n 的 基础 资源 ， 各 种 各 样 的 锁 机 制 当 需 要 时 可 随时 被 编译 进 内 核 使 用 。 在 不 同 的 体系 结构 上 ， 

| CONFIG_SMP 和 CONFIG_PREEMPT 设置 不 同 ， 实 际 编译 时 包含 的 锁 就 不 同 。 

| 在 代码 中 ， 要 为 大 多 数 精 糕 的 情况 提供 适当 的 保护 ， 例 如 具有 内 核 抢占 的 SMP， 并 且 要 

5 考虑 到 所 有 的 情况 。 


但 ”你 将 看 到 ， 除 了 一 些 意外 情况 外 ，SMP 安全 其 实 也 意味 着 抢占 安全 。 
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在 编写 内 核 代码 时 ， 你 要 问 自 己 下 面 这 些 间 题 : 

* 这 个 数据 是 不 是 全 局 的 ? 除了 当前 线程 外 , 其 他 线程 能 不 能 访问 它 ? 

* 这 个 数据 会 不 会 在 进程 上 下 文 和 中 断 上 下 文中 共享 ? 它 是 不 是 要 在 两 个 不 同 的 中 断 处 理 程 
序 中 共享 ? 

“ 进程 在 访问 数据 时 可 不 可 能 被 抢占 ? 被 调度 的 新 程序 会 不 会 访问 同一 数据 ? 

* 当前 进程 是 不 是 会 睡眠 〈 阻 塞 ) 在 某 些 资 源 上 ， 如 果 是 ， 它 会 让 共享 数据 处 于 何 种 状态 ? 
* 怎样 防止 数据 失控 ? 

“ 如果 这 个 国 数 又 在 另 一 个 处 理 器 上 被 调度 将 会 发 生 什 么 呢 ? 

“如何 确保 代码 远离 并 发 威胁 呢 ? 


简 而 言 之 ， 几 乎 访问 所 有 的 内 核 全 局 变量 和 共享 数据 都 需要 某 种 形式 的 同步 方法 ， 具 体 加 锁 
方法 将 在 第 10 章 进行 讨论 。 


9.3 死 锁 


死 锁 的 产生 需要 一 定 条件 : 要 有 一 个 或 多 个 执行 线程 和 一 个 或 多 个 资源 ， 每 个 线程 都 在 等 待 
其 中 的 一 个 资源 ， 但 所 有 的 资源 都 已 经 被 占用 了 。 所 有 线程 都 在 相互 等 待 ， 但 它们 永远 不 会 释放 
已 经 占有 的 资源 。 于 是 任何 线程 都 无 法 继续 ， 这 便 意 味 着 死 锁 的 发 生 。 

一 个 很 好 的 死 锁 例子 是 四 路 交通 堵塞 问题 。 如 果 每 一 个 停止 的 车 都 决心 等 待 其 他 的 车 开动 后 
自己 再 启动 ， 那 么 就 没有 任何 一 辆 车 能 启动 ， 于 是 就 造成 了 交通 死 锁 的 发 生 .。 

最 简单 的 死 锁 例子 是 自 死 锁 9 : 如 果 一 个 执行 线程 试图 去 获得 一 个 自己 已 经 持 有 的 锁 ， 它 将 
不 得 不 等 待 锁 被 释放 ， 但 因为 它 正在 忙 着 等 待 这 个 锁 ， 所 以 自己 永远 也 不 会 有 机 会 释放 锁 ， 最 终 
结 末 就 是 死 锁 : 

获得 销 

再 次 试图 获得 锁 

等 待 锁 重新 可 用 

同样 道理 ， 考 虑 有 n 个 线程 和 mn 个 锁 ， 如 果 每 个 线程 都 持 有 一 把 其 他 进程 需要 得 到 的 锁 ， 那 
么 所 有 的 线程 郡 将 阻塞 地 等 待 它们 希望 得 到 的 饥 重 新 可 用 。 节 背 见 的 例子 是 有 两 个 线程 和 两 把 
锁 ， 它 们 通常 被 叫做 ABBA 死 锁 。 


线程 1 线程 2 
获得 锁 A 获得 锁 B 
试图 获得 锁 B 试图 获得 锁 A 
等 待 锁 B 等 待 锁 A 


每 个 线程 都 在 等 待 其 他 线程 持 有 的 锁 ， 但 是 绝 没 有 一 个 线程 会 释放 它们 一 开始 就 持 有 的 锁 ， 
所 以 没有 任何 锁 会 在 释放 后 被 其 他 线程 使 用 。 
日 、 有 些 内 核 提供 递归 锁 来 防止 自 死 锁 现象 ， 递 妇 锁 可 以 被 一 个 执行 线程 多 次 请 求 。 幸 好 Linux 没有 提供 这 样 的 


递归 锁 。 不 用 递归 锁 通 常 被 认为 是 一 件 好 事 ， 虽 然 递 归 锁 缓和 了 自 死 锁 问 题 ， 但 它们 很 容易 使 加 锁 逻 辑 变 得 
杂乱 无 章 。 
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预防 死 锁 的 发 生 非 常 重要 ， 虽 然 很 难 证 明代 码 不 会 发 生死 锁 ， 但 是 可 以 写 出 避免 死 锁 的 代 

一 些 简 单 的 规则 对 避免 死 锁 大 有 帮助 : 

* 按 顺 序 加 锁 。 使 用 婴 父 的 锁 时 必须 保证 以 相同 的 顺序 获取 锁 ， 这 样 可 以 阻止 致命 拥抱 类 型 
的 死 锁 。 最 好 能 记录 下 锁 的 顺序 ， 以 便 其 他 人 也 能 照 此 顺序 使 用 。 

“防止 发 生 饥 饿 。 试 同 ， 这 个 代码 的 执行 是 否 一 定 会 结束 ? 如 果 “ 张 ”不 发 生 ? “ 王 ” 要 一 
直 等 待 下 去 吗 ? 

* 不 要 重复 请 求 同 一 个 锁 。 

* 设计 应 力求 简单 一 一 越 复杂 的 加 锁 方 案 越 有 可 能 造成 死 锁 。 

最 值得 强调 的 是 第 一 点 ， 它 最 为 重要 。 如 果 有 两 个 或 多 个 锁 曾 在 同一 时 间 里 被 请 求 ， 那 么 

以 后 其 他 函数 请 求 它 们 也 必须 按照 前 次 的 加 锁 顺 序 进行 。 假 设 有 cat、dog 和 fox 这 几 个 锁 来 保 

护 某 同名 的 多 个 数据 结构 ， 同 时 假设 有 一 个 函数 对 这 三 个 锁 保 护 的 数据 结构 进行 操作 一 一 可 能 在 

它们 之 间 进 行 拷贝 。 不 管 哪 种 情况 ， 这 些 数据 结构 都 需要 保护 才能 被 安全 访问 。 如 果 有 一 个 函数 

以 cat、dog， 然 后 是 fox 的 顺序 获得 了 锁 ， 那 么 其 他 任何 函数 都 必须 以 同样 的 顺序 来 获得 这 些 锁 

(或 是 它们 的 子 集 )。 如 果 其 他 函数 首先 获得 锁 fox， 然 后 获得 锁 dog (因为 销 dog 总 是 应 该 先 于 

锁 fox 被 获得 )， 就 有 发 生死 锁 的 可 能 (所 以 是 个 bug)。 为 更 直观 地 说 明 ， 下 面 给 出 一 个 造成 死 

锁 的 例子 : 


下 





线程 1 线程 2 

获得 锁 cat 获得 销 fox 
获得 锁 dog 试图 获得 锁 dog 
试图 获得 锁 fox 等 待 钢 dog 


等 待 销 faox 


线程 1 在 等 待 锁 fox， 而 该 锁 此 刻 被 线程 2 持 有 ; 同样 线程 2 正在 等 待 锁 dog， 而 该 镇 此 刻 
义 被 线程 1 持 有 。 任 何 一 方 者 不 会 放弃 自己 已 持 有 的 锁 ， 于 是 双方 都 会 永远 地 等 待 下 去 一 一 也 就 
是 死 锁 。 但 是 ， 只 要 线程 都 按照 相同 的 顺序 去 获取 这 些 锁 ， 就 可 以 避免 上 述 的 死 锁 情况 。 

只 要 髓 套 地 使 用 多 个 锁 ， 就 必须 按照 相同 的 顺序 去 获取 它们 。 在 代码 中 使 用 锁 的 地 方 ， 对 锁 
的 获取 顺序 加 上 注释 是 个 良好 的 习惯 。 下 面 的 例子 就 做 得 很 不 错 : 

A 

eh cat 数据 结构 的 锁 ， 总 是 要 在 获得 锁 dog 前 先 获 得 

尽管 释放 锁 的 顺序 和 死 锁 是 无 关 的 ， 但 最 好 还 是 以 获得 锁 的 相反 顺序 来 释放 锁 。 

防止 死 锁 很 重要 ， 所 以 Linux 内 核 提供 了 一 些 简单 易 用 的 调试 工具 ， 可 以 在 运行 时 检测 死 
锁 ， 我 们 将 在 第 10 章 讨 论 它们 。 


9.4 争 用 和 扩展 性 


镇 的 争 用 《〈lock contention)， 或 简称 争 用 ， 是 指 当 锁 正 在 被 占用 时 ， 有 其 他 线程 试图 获得 该 
锁 。 说 一 个 锁 处 于 高 度 争 用 状态 ， 就 是 指 有 多 个 其 他 线程 在 等 待 获得 该 锁 。 由 于 锁 的 作用 是 使 程 
序 以 串 行 方式 对 资源 进行 访问 ， 所 以 使 用 锁 无 疑 会 降低 系统 的 性 能 。 被 高 度 争 用 《频繁 被 持 有 ， 
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或 者 长 时 间 持 有 一 一 两 者 都 有 就 更 精 粒 ) 的 锁 会 成 为 系统 的 瓶颈 ， 严 重 降 低 系 统 性 能 。 即 使 是 这 
样 ， 相 比 于 被 几 个 相互 抢夺 共享 资源 的 线程 揣 成 碎片 ， 搞 得 内 核 崩 涡 ， 还 是 这 种 同步 保护 来 得 更 
好 一 点 。 当 然 ， 如 果 有 办 法 能 解决 高 度 争 用 问题 ， 就 更 好 不 过 了 。 

扩展 性 〈scalability) 是 对 系统 可 扩展 程度 的 一 个 量度 。 对 于 操作 系统 ， 我 们 在 谈 及 可 扩展 
性 时 就 会 和 大 量 进程 、 大 量 处 理 器 或 是 大 量 内 存 等 联系 起 来 。 共 实 任何 可 以 被 计量 的 计算 机 组 件 
都 可 以 涉及 可 扩展 性 。 理 想 情 况 下 ， 处 理 器 的 数量 加 倍 应 该 会 使 系统 处 理性 能 翻 倍 。 而 实际 上 ， 
这 是 不 可 能 达到 的 。 

自从 2.0 版 内 核 引 入 多 处 理 支 持 后 ，Linux 对 集群 处 理 器 的 可 扩展 性 大 大 提高 了 。 在 Linux 
刚 加 入 对 多 处 理 器 支持 的 时 候 ， 一 个 时 刻 只 能 有 一 个 任务 在 内 核 中 执行 ; 在 2.2 版 本 中 ， 当 加 
锁 机 制 发 展 到 细 粒 度 (fine-grained)〉 加 锁 后 ， 便 取消 了 这 种 限制 ， 而 在 2.4 和 后 续 版 本 中 ， 内 
核 加 销 的 粒度 变 得 越 来 越 精 细 。 如 今 ， 在 Linux 2.6 版 内 核 中 ,内核 加 的 锁 是 非常 细 的 粒度 ， 可 
扩展 性 也 很 好 。 

加 锁 粒 度 用 来 描述 加 锁 保 护 的 数据 规模 。 一 个 过 粗 的 锁 保 护 大 块 数据 一 一 比如 ， 一 个 子 系统 
用 到 的 所 有 的 数据 结构 ; 相反 ， 一 个 过 于 精细 的 锁 保 护 很 小 的 一 块 数 据 一 一 比如 ， 一 个 大 数据 结 
构 中 的 一 个 元 素 。 在 实际 使 用 中 ， 绝 大 多 数 锁 的 加 锁 范 围 都 处 于 上 述 两 种 极端 之 间 ， 保 护 的 既 不 
是 一 个 完整 的 子 系统 也 不 是 一 个 独立 元 素 ， 而 可 能 是 一 个 单独 的 数据 结构 。 许 多 锁 的 设计 在 开始 
阶段 都 很 粗 ， 但 是 当 锁 的 争 用 问题 变 得 严重 时 ， 设 计 就 向 更 加 精细 的 加 锁 方 向 进化 。 

在 第 4 章 中 讨论 过 的 运行 队列 ， 就 是 一 个 锁 从 粗 到 精细 化 的 实例 。 在 2.4 版 和 更 早 的 内 核 
中 ， 调 度 程序 有 一 个 单独 的 调度 队列 (回忆 一 下 ， 调 度 队列 是 一 个 由 可 调度 进程 组 成 的 链表 )， 
在 2.6 版 内 核 系列 的 早期 版 本 中 ，O(1) 调度 程序 为 每 个 处 理 器 单独 配备 一 个 运行 队列 ， 每 个 队列 
拥有 自己 的 锁 ， 于 是 加 锁 由 一 个 全 局 锁 精 化 到 了 每 个 处 理 器 拥有 各 自 的 锁 。 这 是 一 种 重要 的 优化 ， 
因为 运行 队列 锁 在 大 型 机 器 上 被 和 争 着 用 ， 本 质 上 就 是 要 在 调度 程序 中 每 次 都 把 整个 调度 进程 下 放 
到 单个 处 理 器 上 执行 。 在 2.6 版 内 核 系 列 的 新 近 版 本 中 ，CFS 调度 器 进一步 提升 了 锁 的 可 扩展 性 。 

一 般 来 说 ， 提 高 可 扩展 性 是 件 好 事 ， 因 为 它 可 以 提高 Linux 在 更 大 型 的 、 处 理 能 力 更 强大 的 
系统 上 的 性 能 。 但 是 一 味 地 “提高 ”可 扩展 性 ， 却 会 导致 Linux 在 小 型 SMP 和 UP 机 器 上 的 性 
能 降低 ， 这 是 因为 小 型 机 器 可 能 用 不 到 特别 精细 的 锁 ， 锁 得 过 细 只 会 增加 复杂 度 ， 并 加 大 开销 。 
考虑 一 个 链表 ， 最 初 的 加 锁 方案 可 能 就 是 用 一 个 锁 来 保护 链表 ， 后 来 发 现 ， 在 拥有 集群 处 理 器 机 
器 上 ， 当 各 个 处 理 器 需要 频繁 访问 该 链表 的 时 候 ， 只 用 单独 一 个 锁 却 成 了 扩展 性 的 瓶颈 。 为 解决 
这 个 瓶颈 ， 我 们 将 原来 加 锁 的 整个 链表 变 成 为 链表 中 的 每 一 个 结 点 都 加 人 自己 的 锁 ， 这 样 一 来 ， 
如 果 要 对 结 点 进行 读 写 ， 必 须 先 得 到 这 个 结 点 对 应 的 锁 。 将 加 锁 粒 度 变 细 后 ， 多 处 理 器 访问 同一 
个 结 点 时 ， 只 会 争 用 一 个 锁 。 可 是 这 时 锁 的 争 用 仍然 没有 完全 避免 ， 那 么 ， 能 不 能 为 每 个 结 点 中 
的 每 个 元 素 都 提供 一 个 锁 呢 ? (答案 是 : 不 能 .) 严格 地 讲 ， 即 使 这 么 细 的 锁 可 以 在 大 规模 SMP 
机 器 上 执行 得 很 好 ， 但 它 在 双 处 理 器 机 器 上 的 表现 又 会 怎样 呢 ? 如 果 在 双 处 理 器 机 器 锁 争 用 表现 
得 并 不 明显 ， 那 么 多 余 的 锁 会 加 大 系统 开销 ， 造 成 很 大 的 浪费 。 

不 管 怎么 说 ， 可 扩展 性 都 是 很 重要 的 ， 需 要 慎重 考虑 。 关 键 在 于 ， 在 设计 锁 的 开始 阶段 就 应 
该 考虑 到 要 保证 良好 的 扩展 性 。 因 为 即使 在 小 型 机 器 上 ， 如 果 对 重要 资源 锁 得 太 粗 ， 也 很 容易 造 
成 系统 性 能 瓶颈 。 锁 加 得 过 粗 或 过 细 ， 差 别 往往 只 在 一 线 之 间 。 当 锁 争 用 严重 时 ， 加 锁 太 粗 会 降 
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低 可 扩展 性 ; 而 锁 争 用 不 明显 时 ， 加 锁 过 细 会 加 大 系统 开销 ， 带 来 浪费 ， 这 两 种 情况 都 会 造成 系 
统 性 能 下 降 。 但 要 记 住 : 设计 初期 加 锁 方 案 应 该 力求 简单 ， 仅 当 需 要 时 再 进一步 细 化 加 锁 方案 。 
精 等 在 于 力求 简单 。 


9.5 小结 


要 编写 SMP 安全 代码 ， 不 能 等 到 编码 完成 后 才 禾 谍 如 何 加 锁 。 恰 当 的 同步 《也 就 是 加 锁 ) 
〈 既 要 满足 不 死 锁 、 可 扩展 ， 而 且 还 要 清晰 、 简 请 ) 需要 从 头 到 尾 ， 在 整个 编码 过 程 中 不 断 考 虚 
与 完善 。 无 论 你 在 编写 哪 种 内 核 代 码 ， 是 新 的 系统 调用 也 好 ， 还 是 重 写 驱动 程序 也 好 ， 首 先 应 该 
考虑 的 就 是 保护 数据 不 被 并 发 访问 ， 记 住 ， 加 锁 你 的 代码 。 

第 10 章 将 讨论 如 何 为 SMP、 内 核 抢占 和 其 他 各 种 情况 提供 充分 的 同步 保护 ， 确 保 数 据 在 任 
何 机 器 和 配置 中 的 安全 。 

了 解 了 同步 、 并 发 和 加 锁 的 基本 原理 之 后 ， 让 我 们 现在 带 心 钻研 Linux 内 核 提 供 的 实际 工 
具 ， 以 确保 你 的 代码 有 竞争 力 但 免 于 死 锁 。 


第 40 章 
内 核 同 步 万 法 


第 9 章 讨 论 了 竞争 条 件 为 何 会 产生 以 及 怎么 去 解决 。 幸 运 的 是 ，Linux 内 核 提供 了 一 组 相当 
完备 的 同步 方法 ， 这 些 方法 使 得 内 核 开 发 者 们 能 编写 出 高 效 而 又 自由 竞争 的 代码 。 本 章 讨论 的 就 
是 这 些 方法 ， 包 括 它们 的 接口 、 行 为 和 用 途 。 


10.1 原子 操作 


我 们 首先 介绍 同步 方法 中 的 原子 操作 ， 因 为 它 是 其 他 同步 方法 的 基石 。 原 子 操作 可 以 保证 
指令 以 原子 的 方式 执行 一 一 执行 过 程 不 被 打 断 。 众 所 周知 ， 原 子 原本 指 的 是 不 可 分 割 的 微粒 ， 所 
以 原子 操作 也 就 古 不 能 够 被 分 割 的 指令 。 例 如 ， 第 9 章 曾 提 到 过 的 原子 方式 的 加 操作 ， 它 通过 把 
读 取 和 增加 变量 的 行为 包含 在 一 个 单 步 中 执行 ， 从 而 防止 了 竞争 的 发 生 保证 了 操作 结果 总 是 一 致 
的 。 一 起 来 回忆 一 下 这 个 整数 递 加 过 程 中 遇 到 的 竞争 吧 : 


线程 1 线程 2 

获得 i (T) 获得 i (7) 

增加 (7-=8) 

一 增加 i (8->9) 

写 回 i (81) 一 

+ 一 写 回 4 (8) 

使 用 原子 操作 ， 上 述 的 竞争 不 会 发 生 一 一 事实 上 不 可 能 发 生 。 从 而 ， 计 算 过 程 无 疑 会 是 下 述 之 一 : 
线程 1 线程 2 


获得 、 增 加 和 存储 i (7 -> 8) 一 
人 获得 、 增 加 和 存储 i (8 -> 9) 


或 者 是 


线程 1 线程 2 
二 获得 、 增 加 和 存储 i (7 -> 8) 
获得 、 增 加 和 存储 i (8 -> 9) > 

最 后 得 到 的 9， 毫 无 疑问 是 正确 结果 。 两 个 原子 操作 绝对 不 可 能 并 发 地 访问 同一 个 变量 ， 这 
样 加 操作 也 就 绝 不 可 能 引起 竞争 。 

内 核 提 供 了 两 组 原子 操作 接口 一 一 一 组 针对 整数 进行 操作 ， 另 一 组 针对 单独 的 位 进行 操作 。 
在 Linux 支持 的 所 有 体系 结构 上 都 实现 了 这 两 组 接口 。 大 多 数 体系 结构 会 提供 支持 原子 操作 的 简 
单 算术 指令 。 而 有 些 体系 结构 确实 缺少 简单 的 原子 操作 指令 ， 但 是 也 为 单 步 执行 提供 了 锁 内 存 总 
线 的 指令 ， 这 就 确保 了 其 他 改变 内 存 的 操作 不 能 同时 发 生 。 
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10.1.1 原子 整数 操作 


针对 整数 的 原子 操作 只 能 对 atomic_t 类 型 的 数据 进行 处 理 。 在 这 里 之 所 以 引入 了 一 个 特殊 
数据 类 型 ， 而 没有 直接 使 用 C 语言 的 int 类 型 ， 主 要 是 出 于 两 个 原因 : 首先 ， 让 原子 函数 只 接收 
atomic t 类 型 的 操作 数 ， 可 以 确保 原子 操作 只 与 这 种 特殊 类 型 数据 一 起 使 用 。 同 时 ， 这 也 保证 了 
该 类 型 的 数据 不 会 被 传递 给 任何 非 原子 函数 。 实 际 上 ， 对 一 个 数据 一 会 儿 要 采用 原子 操作 ， 一 会 
儿 又 不 用 原子 操作 了 ， 这 又 能 有 什么 好 处 ? 其 次 ， 使 用 atomic_t 类 型 确保 编译 器 不 对 不 能 说 完 
美 地 完成 了 任务 但 不 乏 自 知之 明 ) 相应 的 值 进行 访问 优化 一 一 这 点 使 得 原子 操作 最 终 接 收 到 正确 
的 内 存 地 址 ， 而 不 只 是 一 个 别名 。 最 后 ， 在 不 同体 系 结构 上 实现 原子 操作 的 时 候 ， 使 用 atomic t 
可 以 屏蔽 其 间 的 差异 。 Atomic t 类 型 定义 在 文件 <linux/types.h> 中 : 

typedef struct | 


volatile int counter; 
} atomic t; 


尽管 Linux 支持 的 所 有 机 器 上 的 整 型 数据 都 是 32 位 的 ， 但 是 使 用 atomic t 的 代码 只 能 将 该 
类 型 的 数据 当做 24 位 来 用 。 这 个 限制 完全 是 因为 在 SPARC 体系 结构 上 ， 原 子 操作 的 实现 不 同 
于 其 他 体系 结构 : 32 位 int 类 型 的 低 8 位 被 嵌入 了 一 个 锁 ( 如 图 10-1 所 示 )， 因 为 SPARC 体系 
结构 对 原子 操作 缺乏 指令 级 的 支持 ， 所 以 只 能 利用 该 锁 来 避免 对 原子 类 型 数据 的 并 发 访问 。 所 以 
在 SPARC 机 器 上 就 只 能 使 用 24 位 了 。 虽 然 其 他 机 器 上 的 代码 完全 可 以 使 用 全 部 的 32 位 ， 但 在 
SPARC 机 器 上 却 可 能 造成 一 些 奇怪 和 微妙 的 错误 一 一 这 简直 太 不 和 谐 了 。 最 近 ， 机 灵 的 黑客 已 
经 允许 SPARC 提供 全 32 位 的 atomic_t， 这 一 限制 不 存在 了 。 


32fiatomic + 


/OO 人 CC 
pmo | | 





位 31 7 0 
图 10-1 SPARC 上 的 32 位 atomic t 的 布局 


使 用 原子 整 型 操作 需要 的 声明 都 在 <asm/atomic.h> 文件 中 。 有 些 体系 结构 会 提供 一 些 
只 能 在 该 体系 结构 上 使 用 的 额外 原子 操作 方法 ， 但 所 有 的 体系 结构 都 能 保证 内 核 使 用 到 的 
所 有 操作 的 最 小 集 。 在 写 内 核 代 码 时 ， 可 以 肯定 ， 这 个 最 小 操作 集 在 所 有 体系 结构 上 都 已 
实现 了 。 

定义 一 个 atomic t 类 型 的 数据 方法 很 平常 ， 你 还 可 以 在 定义 时 给 它 设 定 初 值 : 

atomic 七 Ti / 定 史 VE/ 

atomic t u = ATOMIC INIT(0); /* 定义 u 并 把 它 初始 化 为 0*7 

操作 也 都 非常 简单 : 


atomic set{&v,4); /* Vv = 4 (原子 地 )*/ 
atomic addat2,g&v) /*Vv=V+2= 6 (原子 地 ) */ 
atomic incf&v) : /v=+ 1 =7{ 原 子 地 )*/ 
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如 果 需 要 将 atomic t 转换 成 int 型 ， 可 以 使 用 atomic_read0 来 完成 : 

printk("$®d\n",atomic readl&v)); /* 会 打 E "7"™*j 

原子 整数 操作 最 常见 的 用 途 就 是 实现 计数 器 。 使 用 复杂 的 锁 机 制 来 保护 一 个 单纯 的 计数 器 显 
然 杀 鸡 用 了 宰 牛 刀 ， 所 以 ， 开 发 者 节 好 使 用 atomic_inc() 和 atomic_dec() 这 两 个 相对 来 说 轻便 一 
点 的 操作 。 

还 可 以 用 原子 整数 操作 原子 地 执行 一 个 操作 并 检查 结果 。 一 个 常见 的 例子 就 是 原子 地 减 操作 
和 检查 。 


int atomic dec _ and test {atomic t *V) 


这 个 函数 将 给 定 的 原子 变量 减 1， 如 果 结 果 为 0， 就 返回 真 ; 否则 返回 假 。 表 10-1 列 出 了 所 
有 的 标准 原子 整数 操作 (所 有 体系 结构 都 包含 这 些 操作 )。 某 种 特定 的 体系 结构 上 实现 的 所 有 操 
作 可 以 在 文件 <asm/atomic.h> 中 找到 。 


表 10-1 原子 整数 操作 列表 


原子 整数 操作 描 述 
ATOMIC INIT(int 1) 在 声明 一 个 atomic t 变量 时 ， 将 它 初 始 化 为 1 
int atomic read(atomic t *v) 原子 地 读 取 整数 变量 
void atomic set(atomic t *v, int i) 原子 地 设置 v 值 为 i 
void atomic add(int i,atomic t *v) 原子 地 络 v 加 ji 
void atomic sub(int i,atomic t *v) 原子 地 从 v 减 i 
void atomic inc(atomic t *v) 原子 地 给 Vv 加 1 
void atomic dec{atomic t *v) 原子 地 以 YY 减 1 
int atomic sub and test(int i,atomic t *v) 原子 地 从 VY 减 i， 如 果 结 果 等 于 0， 返 回 真 ; 否则 返回 假 
int atomic add negative(int i,atomic t *v) 原子 地 给 v 加 i， 如 果 结 果 是 负数 ， 返 回 真 ; 否则 返回 假 
int atomic add return(int i, atomic t *Y) 原子 地 给 v 加 i， 且 返回 结果 
int atomic sub return(int i, atomic t *v) 原子 地 从 Vv 减 i1， 且 返回 结果 
int atomic ine_return(int i, atomic t *v) 原子 地 给 v 加 1， 且 返回 结果 
int atomic_dec_return(int i, atomic t *v) 原子 地 从 v 减 1， 且 返回 结果 
int atomic_dec_and test(atomic te*V) 原子 地 从 v 碱 1， 如 果 结 果 等 于 0， 返 回 真 ; 否则 返回 假 
int atomic_inc_amnd test(atomic _t “Vv) 原子 地 给 v 加 1， 如 果 结 果 等 于 0， 返 回 真 ; 否则 返回 假 


原子 操作 通常 是 内 联 函 数 ， 往 往 是 通过 内 婴 汇 编 指令 来 实现 的 。 如 果 某 个 函数 本 来 就 是 原 
子 的 ， 那 么 它 往往 会 被 定义 成 一 个 宕 。 例 如 ， 在 大 部 分 体系 结构 上 ， 读 取 一 个 字 本 身 就 是 一 种 原 
子 操作 ， 也 就 是 说 ， 在 对 一 个 字 进 行 写 入 操作 期 间 不 可 能 完成 对 该 字 的 读 取 。 这 样 ， 把 atomic_ 
read() 定义 成 一 个 宕 ， 只 须 返 回 atomic t 类 型 的 整数 值 就 可 以 了 。 
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Fd 
* atomic read - read atomic variable 
二 Ey: pointer of type atomic 七 


省 


* Atomically reads the Value of fv. 
*/ 
static inline int atomic read(const atomic t+ wy) 
{ 
return v->counter; 


} 


”原子 性 与 顺序 性 的 比较 
” ”关于 原子 读 取 的 上 述 讨论 引发 了 原子 性 与 顺序 性 之 间 差异 的 讨论 。 正 如 所 讨论 的 ， 一 个 
“ 字 长 的 读 取 总 是 原子 地 发 生 ， 绝 不 可 能 对 同一 个 字 交 错 地 进行 写 ; 读 总 是 返回 一 个 完整 的 字 ， 
”这 或 者 发 生 在 写 操作 之 前 ， 或 者 之 后 ， 绝 不 可 能 发 生 在 写 的 过 程 中 。 例 如 ， 如 果 一 个 整数 初 
， 始 化 为 42， 然 后 又 置 为 3655， 那 么 读 取 这 个 整数 肯定 会 返回 42 或 者 365， 而 绝 不 会 是 二 者 的 
; 混合 。 这 就 是 我 们 所 谓 的 原子 性 。 
， 也许 代码 比 这 有 更 多 的 要 求 。 或 许 要 求 读 必 须 在 待定 的 写 之 前 发 生 一 “这 种 需求 其 实 不 
属于 原子 性 要 求 ， 而 是 顺序 要 求 。 原 子 性 确保 指令 执行 期 间 不 被 打 断 ， 要 么 全 部 执行 完 ， 要 
么 根 本 不 执行 。 另 一 方面 ， 顺 序 性 确保 即使 两 条 或 多 条 指令 出 现在 独立 的 执行 线程 中 ， 甚 至 
独立 的 处 理 器 上 ， 它 们 本 该 的 执行 顺序 却 依 然 要 保持 。 
在 本 小 节 讨 论 的 原子 操作 只 保证 原子 性 。 顺 序 性 通过 屏障 (barrier) 指令 来 实施 ， 这 将 在 
本 章 的 后 面 讨 论 。 


在 编写 代码 的 时 候 ， 能 使 用 原子 操作 时 ， 就 尽量 不 要 使 用 复杂 的 加 锁 机 制 。 对 多 数 体系 结构 
来 讲 ， 原 子 操作 与 更 复杂 的 同步 方法 相 比 较 ， 给 系统 带 来 的 开销 小 ， 对 高 速 缓 存 行 (cache-line) 
的 影响 也 小 。 但 是 ， 对 于 那些 有 高 性 能 要 求 的 代码 ， 对 多 种 同步 方法 进行 测试 比较 ， 不 失 为 一 种 
明智 的 做 法 。 


10.1.2 64 位 原子 操作 


随 着 64 位 体系 结构 越 来 越 普及 ， 内 核 开 发 者 确实 在 考虑 原子 变量 除 32 位 atomic t 类 型 外 ， 
也 应 引入 64 位 的 atomic64_t。 因 为 移植 性 原因 ，atomic_t 变量 大 小 无 法 在 体系 结构 之 间 改 变 。 所 
以 ，atomic t 类 型 即便 在 64 位 体系 结构 下 也 是 32 位 的 ， 若 要 使 用 64 位 的 原子 变量 ， 则 要 使 用 
atomic64 t 类 型 一 一 其 功能 和 其 32 位 的 兄弟 无 异 ， 使 用 方法 完全 相同 ， 不 辣 的 只 有 整 型 变量 大 小 
从 32 位 变 成 了 代位 。 几 平 所 有 的 经 典 32 位 原子 操作 都 有 64 位 的 实现 ， 它 们 被 冠 以 atomic64 前 
级， 而 32 位 实现 冠 以 atomic 前 级 。 表 10-2， 是 所 有 标准 原子 操作 列表 ; 有 些 体系 结构 实现 的 方法 
更 多 ,但 是 没有 移植 性 。 与 atomic t 一样，atomic64_t 类 型 其 实 是 对 长 整 型 的 一 个 简单 封装 类 。 

typedef struct I 


volatile long counter; 
} atomic64 t; 
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表 10-2 原子 整 型 操作 


原子 整数 操作 描述 
ATOMIC64_INIT(long i) 在 声明 一 个 atomic + 变量 时 ， 将 它 初 始 化 为 i 
long atomic64 read(atomic64 t *v) 原子 地 读 取 整数 变量 v 
void atomic64 Set[atomic64 t *v, int 1) 原子 地 设置 v 值 为 i 
void atomic64 add(int iatomic64 t *v) 原子 地 给 v 加 i 
void atomic64 sub(int iatomic64 t *v) 原子 地 从 Vv 减 i 
void atomic64 inc(atomic64 t *v) 原子 地 给 YY 加 1 
void atomic64 dec(atomic64 t *v) 原子 地 从 Y 减 1 
int atomic64 sub and test(int i,atomic64 +t *v} 原子 地 从 v 减 i， 如 果 结 果 等 于 0， 返 回 真 ; 否则 返回 假 
int re i,atomic64 t *v) 原子 地 给 Y 加 ii， 如果 结果 是 负数 ， 返 回 真 ; 否则 返回 假 
long atomic64 add return(int i, atomic64 +t *v) 原子 地 给 v 加 i， 且 返回 结果 
long atomic64 sub return(int i, atomic64 t *v) 原子 地 从 Y 减 i， 且 返回 结果 
long atomic64 ine return(int i, atomic64_t *v) 原子 地 给 v 加 i， 目 返回 结果 
long atomic64 dec_return(int iatomic64 t+ *v) 原子 地 从 VY 减 i， 且 返回 结果 
int atomic64 dec and test(atomic64 t *v) 原子 地 从 vY 减 i， 如 果 结 果 等 于 0， 返 回 真 ; 否则 返回 假 
int atomic64 inc and test(atomic64 t *v) 原子 地 给 v 加 i， 如 果 结 果 等 于 0， 返回 真 ; 否则 返回 假 


所 有 64 位 体系 结构 都 提供 了 atomic64 t 类 型 ， 以 及 一 组 对 应 的 算数 操作 方法 。 但 是 多 数 
32 位 体系 机 构 不 支持 atomic64_t 类 型 一 一 不 过 ，x86-32 是 一 个 众所周知 的 例外 。 为 了 便于 在 
Linux 支持 的 各 种 体系 结构 之 间 移 植 代码 ， 开 发 者 应 该 使 用 32 位 的 atomic t 类型。 把 64 位 的 
atomic64 ft 类 型 留 给 那些 特殊 体系 结构 和 需要 64 位 的 代码 吧 。 





10.1.3 原子 位 操作 


除了 原子 整数 操作 外 ， 内 核 也 提供 了 一 组 针对 位 这 一 级 数据 进行 操作 的 函数 。 没 什么 好 奇怪 
的 ， 它 们 是 与 体系 结构 相关 的 操作 ， 定 义 在 文件 <asm/bitops.h> 中 。 

令 人 感到 奇怪 的 是 位 操作 函数 是 对 普通 的 内 存 地 址 进行 操作 的 。 它 的 参数 是 一 个 指针 和 一 
个 位 号 ， 第 0 位 是 给 定 地 址 的 最 低 有 效 位 。 在 32 位 机 上 ， 第 31 位 是 给 定 地 址 的 最 高 有 效 位 而 
第 32 位 是 下 一 个 字 的 最 低 有 效 位 。 虽 然 使 用 原子 位 操作 在 多 数 情 况 下 是 对 一 个 字 长 的 内 存 进 
行 访问 ， 因 而 位 号 应 该 位 于 0 一 31 (在 64 位 机 器 中 是 0 一 63)， 但 是 ， 对 位 号 的 范围 并 没有 
限制 。 

由 于 原子 位 操作 是 对 普通 的 指针 进行 的 操作 ， 所 以 不 像 原 子 整 型 对 应 atomic t， 这 里 没有 
特殊 的 数据 类 型 。 相 反 ， 只 要 指针 指向 了 任何 你 希望 的 数据 ， 你 就 可 以 对 它 进行 操作 。 来 看 一 
个 例子 : 
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unsigned long word = 0; 


set bit(0,&word); /* 第 0 位 被 设置 (原子 地 ) */ 

set_ bit(1,&word); /* 第 1 位 被 设置 (原子 地 ) */ 
printk{"$%ul\n",word); A-* TED 3*/ 

clear bit(1, Eword); +* 清空 第 1 位 */ 

change bit (0,&word) ; /* 翻转 第 0 位 的 值 ， 这 里 它 被 清空 */ 


/* 原子 地 设置 第 0 位 并 且 返 回 设置 前 的 值 (0) */ 
if(test and set bit(0,&word)1| 

/* 永远 不 为 真 */ 
} 


/* 下 面 的 语句 是 合法 的 ; 你 可 以 把 原子 位 指令 与 一 般 的 Cc 语句 混在 一 起 */ 


Word = 7; 
在 表 10-3 中 给 出 了 标准 原子 位 操作 列表 。 
表 10-3 原子 位 操作 的 列表 


z : 原子 位 操作 描述 
void set_ bit(int nr,void *addr) 原子 地 设置 addr 所 指 对 象 的 第 并 位 
void clear_bit(int nr,void *addr) 原子 地 清空 addr 所 指 对 象 的 第 nr 位 
void change_bit(int nr,void *addr) 原子 地 翻转 addr 所 指 对 象 的 第 mr 位 
int test_and_set_bit(int nr,void *addr) i 所 指 对 象 的 第 or 位 ， 
int test and clear bit(int nrvoid *addr) es 所 指 对 象 的 第 or 位， 
int test and_change bitint ar void *addr) 人 所 指 对 象 的 第 严 位 ， 
int test_ bit(int nr,void *addr) 原子 地 返回 addr 所 指 对 象 的 第 nr 位 


为 方便 起 见 ， 内 核 还 提供 了 一 组 与 上 述 操作 对 应 的 非 原子 位 函数 。 非 原子 位 畏 数 与 原子 位 国 
数 的 操作 完全 相同 ， 但 是 ， 前 者 不 保证 原子 性 ， 且 其 名 字 前 组 多 两 个 下 划 线 。 例 如 ， 与 test bit0 
对 应 的 非 原 子 形式 是 __test_bit0。 如 果 你 不 需要 原子 性 操作 (比如 说 ， 你 已 经 用 锁 保 护 了 自己 的 
数据 )， 那 么 这 些 非 原子 的 位 函数 相 比 原子 的 位 函数 可 能 会 执行 得 更 快 些 。 


z 非 原子 位 操作 到 底 是 什么 ? 

乍 一 看 ， 非 原子 位 操作 没有 任何 意义 。 因 为 仅仅 涉及 一 个 位 ， 所 以 不 存在 发 生 了 矛盾 的 可 
能 。 只 要 其 中 的 一 个 操作 成 功 ， 还 会 有 什么 事 ? 的 确 ， 顺 序 性 可 能 是 重要 的 ， 但 我 们 在 此 正 谈 
“ 论 原子 性 。 到 了 最 后 ， 如 果 这 一 位 有 了 任 一 条 指令 所 设置 的 值 ， 我 们 应 当 友 好 地 离开 ， 对 吗 ? 
:让 我 们 跳 回 到 原子 性 看 看 到 底 意 味 着 什么 。 原 子 性 意味 着 ， 或 者 指令 完整 地 成 功 执行 完 ， 
不 被 打 断 ， 或 者 根本 不 执行 。 所 以 ， 如 果 你 连续 执行 两 个 原子 位 操作 ， 你 会 希望 两 个 操作 都 
”成 功 。 在 操作 都 完成 后 ， 位 的 值 应 该 是 第 二 个 操作 所 赋予 的 。 但 是 ， 在 最 后 一 个 操作 发 生前 
”的 某 个 时 间 点 ， 位 的 值 应 该 维持 第 一 个 操作 所 赋予 的 。 换 名 话说， 真正 的 原子 操作 需要 的 
< 是 一 -所 有 中 间 结 果 都 正确 无 误 。 
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例如 ， 假 定 给 出 两 个 原子 位 操作 : 先 对 某 位 置 位 ， 然 后 清 0。 如 果 没 有 原子 操作 ， 那 么 ， 
* 这 一 位 可 能 的 确 清 0 了 ， 但 是 也 可 能 根本 没有 置 位 。 置 位 操作 可 能 与 清除 操作 同时 发 生 ， 但 

”没有 成 功 。 清 除 操作 可 能 成 功 了 ， 这 一 位 如 愿 呈现 为 清 0。 但 是 ， 有 了 原子 操作 ， 置 位 会 真正 
4 发 生 ， 可 能 有 那么 一 刻 ， 读 操作 显示 所 置 的 位 ， 然 后 清除 操作 才 执 行 ， 读 位 变 为 0 了 。 

: 这 种 行为 可 能 是 重要 的 ， 尤 其 当 顺序 性 开始 起 作用 的 时 候 ， 或 者 当 操 作 硬 件 寄存 器 的 
时 候 。 


内 核 还 提供 了 两 个 例 程 用 来 从 指定 的 地 址 开始 搜索 第 一 个 被 设置 (或 未 被 设置 ) 的 位 。 


int find first bit{unsigned long *addr,unsigned int size) 
int find first zero bit{unsigned long *addr,unsigned int size) 


这 两 个 函数 中 第 一 个 参数 是 一 个 指针 ， 第 二 个 参数 是 要 搜索 的 总 位 数 ， 返 回 值 分 别 是 第 一 个 
被 设置 的 (或 没 被 设置 的 ) 位 的 位 号 。 如 果 你 的 搜索 范围 仅 限于 一 个 字 ， 使 用 _fsO 和 多 () 这 两 
个 函数 更 好 ， 它 们 只 需要 给 定 一 个 要 搜索 的 地 址 做 参数 。 

与 原子 整数 操作 不 同 ， 代 码 一 般 无 法 选择 是 否 使 用 位 操作 ， 它 们 是 唯一 的 、 具 有 可 移植 性 
的 设置 特定 位 方法 ， 需 要 选择 的 是 使 用 原子 位 操作 还 是 非 原 子 位 操作 。 如 果 你 的 代码 本 身 已 经 
避免 了 竞争 条 件 ， 你 可 以 使 用 非 原 子 位 操作 ， 通 常 这 样 执行 得 更 快 ， 当 然 ， 这 还 要 取决 于 具体 
的 体系 结构 。 


10.2 上 自 旋 锁 


如 果 每 个 临界 区 都 能 像 增 加 变量 这 样 简单 就 好 了 ， 可 惜 现实 总 是 残酷 的 。 现 实 世界 里 ， 临 
界 区 甚至 可 以 跨越 多 个 函数 。 举 个 例子 ， 我 们 经 常会 碰 到 这 种 情况 : 先 得 从 一 个 数据 结构 中 移出 
数据 ， 对 其 进行 格式 转换 和 解析 ， 最 后 再 把 它 加 和 人 到 另 一 个 数据 结构 中 。 整 个 执行 过 程 必须 是 原 
子 的， 在 数据 被 更 新 完毕 前 ， 不 能 有 其 他 代码 读 取 这 些 数据 。 显 然 ， 简 单 的 原子 操作 对 此 无 能 为 
力 ， 这 就 需要 使 用 更 为 复杂 的 同步 方法 一 一 锁 来 提供 保护 。 

Linux 内 核 中 最 常见 的 锁 是 自 旋 镇 (spin lock)。 自 旋 锁 最 多 只 能 被 一 个 可 执行 线程 持 有 。 如 
果 一 个 执行 线程 试图 获得 一 个 被 已 经 持 有 〈 即 所 谓 的 争 用 ) 的 自 旋 锁 ， 那 么 该 线程 就 会 一 直 进 行 
忙 循环 一 旋转 一 等 待 锁 重新 可 用 。 要 是 锁 未 被 争 用 ， 请 求 锁 的 执行 线程 便 能 立刻 得 到 它 ， 继 续 执 
行 。 在 任意 时 间 ， 自 旋 锁 都 可 以 防止 多 于 一 个 的 执行 线程 同时 进入 临界 区 。 同 一 个 锁 可 以 用 在 多 
个 位 置 ， 例 如 ， 对 于 给 定数 据 的 所 有 访问 都 可 以 得 到 保护 和 同步 。 

再 回 到 第 9 章 门 和 锁 的 例子 ， 自 旋 锁 相当 于 坐 在 门 外 等 待 同 伴 从 里 面 出 来 ， 并 把 钥匙 交 给 
你 。 如 果 你 到 了 门口 ， 发 现 里 面 设 有 人 ， 就 可 以 抓 到 钥匙 进入 房间 。 如 果 你 到 了 门口 发 现 里 面 正 
好 有 人 ， 就 必须 在 门 外 等 待 钥匙 ， 不 断 地 检查 房间 是 否 为 空 。 当 房间 为 空 时 ， 你 就 可 以 抓 到 钥匙 
进入 。 正 是 因为 有 了 钥匙 《相当 于 自 旋 锁 )， 才 允许 一 次 只 有 一 个 人 《相当 于 执行 线程 ) 进入 房 
闻 〈 相 当 于 临界 区 )。 

一 个 被 争 用 的 自 旋 锁 使 得 请 求 它 的 线程 在 等 待 锁 重 新 可 用 时 自 旋 (特别 浪费 处 理 器 时 间 )， 
这 种 行为 是 自 旋 锁 的 要 点 。 所 以 自 旋 锁 不 应 该 被 长 时 间 持 有 。 事 实 上 ， 这 点 正 是 使 用 目 旋 锁 的 初 
囊 : 在 短期 间 内 进行 轻 量 级 加 锁 。 还 可 以 采取 另外 的 方式 来 处 理 对 锁 的 争 用 : 让 请 求 线程 睡眠 ， 
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直到 锁 重 新 可 用 时 再 唤醒 它 。 这 样 处 理 器 就 不 必 循 环 等 待 ， 可 以 去 执行 其 他 代码 。 这 也 会 带 来 一 
定 的 开销 一 一 这 里 有 两 次 明显 的 上 下 文 切 换 ， 被 阻塞 的 线程 要 换 出 和 换 人 ， 与 实现 自 旋 锁 的 少数 
几 行 代码 相 比 ， 上 下 文 切 换 当 然 有 较 多 的 代码 。 因 此 ， 持 有 自 旋 锁 的 时 间 最 好 小 于 完成 两 次 上 下 
文 切换 的 耗 时 。 当 然 我 们 大 多 数 人 都 不 会 无 聊 到 去 测量 上 下 文 切换 的 耗 时 ， 所 以 我 们 让 持 有 自 旋 
锁 的 时 间 应 尽 可 能 的 短 就 可 以 了 含 。 在 下 面 内 容 中 我 们 将 讨论 信号 量 ， 信 号 量 便 提供 了 上 述 第 二 
种 锁 机 制 ， 它 使 得 在 发 生 争 用 时 ， 等 待 的 线程 能 投入 睡眠 ， 而 不 是 旋转 。 


10.2.1 自 旋 锁 方 法 


自 旋 锁 的 实现 和 体系 结构 密切 相关 ， 代 码 往往 通过 汇编 实现 。 这 些 与 体系 结构 相关 的 代码 定 
义 在 文件 <asm/spinlock.h> 中 ， 实 际 需要 用 到 的 接口 定义 在 文件 <linux/spinlock.h> 中 。 自 旋 锁 的 
基本 使 用 形式 如 下 : 


DEFINE SPINLOCK(mr lock); 

spin lock(gmr lock); 

/* 临界 区 ...*/ 

spin unlock (gmr lock); 

因为 自 旋 锁 在 同一 时 刻 至 多 被 一 个 执行 线程 持 有 ， 所 以 一 个 时 刻 只 能 有 一 个 线程 位 于 临界 区 
内 ， 这 就 为 多 处 理 副 机 絮 提 供 了 防止 并 发 访问 所 需 的 保护 机 制 。 注 意 在 单 处 理 器 机 器 上 ， 编 译 的 
时 候 并 不 会 加 入 目 旋 锁 。 它 仅仅 被 当做 一 个 设置 内 核 抢占 机 制 是 否 被 启用 的 开关 。 如 果 禁 止 内 核 
抢占 ， 那 么 在 编译 时 自 旋 锁 会 被 完全 剔除 出 内 核 。 


; 警告 : 自 旋 锁 是 不 可 递归 的 ， 

3 Linux 内 核实 现 的 自 旋 锁 是 不 可 递归 的 ， 这 点 不 同 于 自 旋 锁 在 其 他 操作 系统 中 的 实现 。 所 
〗 以 如 果 你 试图 得 到 一 个 你 正 持 有 的 锁 ， 你 必须 自 旋 ， 等 待 你 自己 释放 这 个 锁 。 但 你 处 于 自 旋 
忙 等 待 中 ， 所 以 你 永远 没有 机 会 释放 锁 ， 于 是 你 被 自己 锁 死 了 。 千 万 小 心 自 旋 锁 ! 


自 旋 锁 可 以 使 用 在 中 断 处 理 程序 中 《此 处 不 能 使 用 信号 量 ， 因 为 它们 会 导致 睡眠 )。 在 中 断 
处 理 程 序 中 使 用 自 旋 锁 时 ， 一 定 要 在 获取 锁 之 前 ， 首 先 禁止 本 地 中 断 〈 在 当前 处 理 器 上 的 中 断 请 
求 )， 否 则 ， 中 断 处 理 程 序 就 会 打 断 正 持 有 锁 的 内 核 代 码 ， 有 可 能 会 试图 去 争 用 这 个 已 经 被 持 有 
的 目 旋 锁 。 这 样 一 来 ， 中 断 处 理 程 序 就 会 自 旋 ， 等 待 该 锁 重新 可 用 ， 但 是 锁 的 持 有 者 在 这 个 中 断 
处 理 程 序 执行 完毕 前 不 可 能 运行 。 这 正 是 我 们 在 前 面 的 内 容 中 提 到 的 双重 请 求 死 锁 。 注 意 ， 需 要 
关闭 的 只 是 当前 处 理 器 上 的 中 断 。 如 果 中 断 发 生 在 不 同 的 处 理 器 上 ， 即 使 中 断 处理 程 序 在 同一 锁 
上 自 旋 ， 也 不 会 妨碍 锁 的 持 有 者 〈 在 不 同 处 理 器 上 ) 最 终 释 放 锁 。 

内 核 提供 的 禁止 中 断 同 时 请 求 锁 的 接口 ， 使 用 起 来 很 方便 ， 方 法 如 下 。 


DEFINE SPINLOCK{mYr lock); 
unsigned long flagsa; 


好 am 和 号 司 
和 
:有 二 


spin lock irgsave(E&mr lock,1fags).; 


/* 临界 区 ...*/ 


日 、 在 现在 的 抢占 式 内 核 中 ， 这 点 尤为 重要 。 镇 的 持 有 了 时间 等 价 于 系统 的 调度 等 待 时 间 。 


肉 规 同 芒 廊 潜 149 


spin unlock irgrestore(l&mr lock,flags); 


函数 spin_lock irqsave0 保存 中 断 的 当前 状态 ， 并 禁止 本 地 中 断 ， 然 后 再 去 获取 指定 的 锁 。 
反 过 来 spin_unlock_irqrestore() 对 指定 的 锁 解锁 ， 然 后 让 中 断 恢复 到 加 锁 前 的 状态 。 所 以 即使 中 
断 最 初 是 被 禁止 的 ， 代 码 也 不 会 错误 地 激活 它们 ， 相 反 ， 会 继续 让 它们 禁止 。 注 意 ，flags 变量 
看 起 来 像 是 由 数值 传递 的 ， 这 是 因为 这 些 锁 函 数 有 些 部 分 是 通过 宏 的 方式 实现 的 。 

在 单 处 理 器 系统 上 ， 虽 然 在 编译 时 抛弃 掉 了 锁 机 制 ， 但 在 上 面 例子 中 仍 需 要 关闭 中 断 ， 以 禁 
止 中 断 处 理 程 序 访问 共享 数据 。 加 锁 和 解锁 分 别 可 以 禁止 和 允许 内 核 抢 占 。 


， 锁 什么 ? 
和 使 用 锁 的 时 候 一 定 要 对 症 下 药 ， 要 有 针对 性 。 要 知道 需要 保护 的 是 数据 而 不 是 代码 。 尽 
: 管 本 章 的 例子 讲 的 都 是 保护 临界 区 的 重要 性 ， 但 是 真正 保护 的 其 实 是 临界 区 中 的 数据 ， 而 不 
4 是 代码 。 

大 原则 : 针对 代码 加 锁 会 使 得 程序 难以 理解 ， 并 且 容 易 引 发 竞争 条 件 ， 正 确 的 做 法 应 该 
”是 对 数据 而 不 是 代码 加 锁 。 

既然 不 是 对 代码 加 锁 ， 那 就 一 定 要 用 特定 的 锁 来 保护 自己 的 共享 数据 。 例 如 ,“struct foo 
”由 loo_lock 加 锁 ”。 无 论 你 何 时 需要 访问 共享 数据 ， 一 定 要 先 保证 数据 是 安全 的 。 而 保证 数据 
”安全 往往 就 意味 着 在 对 数据 进行 操作 前 ， 首 先 占用 恰当 的 锁 ， 完 成 操作 后 再 释放 它 。 


如 打 你 能 确定 中 断 在 加 锁 前 是 激 话 的 ， 那 束 不 需要 在 解锁 后 恢复 中 断 以 前 的 状态 了 。 你 可 以 
无 条 件 地 在 解锁 时 激活 中 断 。 这 时 ， 使 用 spin_lock irq0 和 spin_unlock irq0 会 更 好 一 些 。 


DEFINE_ SPINLOCK{(mr lock); 


spin lock irg(&mr lock); 


/* 关键 节 */ 


spin unlock irg{Smr lock); 

由 于 内 核 变 得 庞大 而 复杂 ， 因 此 ， 在 内 核 的 执行 路 线 上 ， 你 很 难 搞 清楚 中 断 在 当前 调用 点 上 
到 底 是 不 是 处 于 激活 状态 。 也 正 因为 如 此 ， 我 们 并 不 提倡 使 用 spin_lock_irq0 方法 。 如 果 你 一 定 
要 使 用 它 ， 那 你 应 该 确定 中 断 原来 就 处 于 激活 状态 ， 否 则 当 其 他 人 期 望 中 断 处 于 未 激活 状态 时 却 
发 现 处 于 激活 状态 ， 可 能 会 非常 不 开心 。 
半 调试 自 旋 锁 
a 配置 选项 CONFIG_DEBUG _SPINLOCK 为 使 用 自 旋 锁 的 代码 加 入 了 许多 调试 检测 手段 。 
” 例如， 激活 了 该 选项 ， 内 核 就 会 检查 是 否 使 用 了 未 初始 化 的 锁 ， 是 否 在 还 没 加 锁 的 时 候 就 要 对 
” 锁 执 行 开 锁 操 作 。 在 而 试 代 码 时 ， 总 是 应 该 激活 这 个 选项 。 如 果 需 要 进一步 全 程 调 试 锁 ， 还 应 
,该 打开 CONFIG_ DEBUG_LOCK_ALLOC 选项 。 


10.2.2 ”其 他 针对 自 旋 锁 的 操作 
你 可 以 使 用 spin_lock _init0 方法 来 初始 化 动态 创建 的 自 旋 锁 〔〈 此 时 你 只 有 一 个 指 同 
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spinlock_t 类 型 的 指针 ， 没 有 它 的 实体 )。 

spin_try_lock() 试图 获得 某 个 特定 的 自 旋 锁 ， 如 果 该 锁 已 经 被 争 用 ， 那 么 读 方 法 会 立刻 返回 
一 个 非 0 值 ， 而 不 会 自 旋 等 待 锁 被 释放 ; 如 果 成 功 地 获得 了 这 个 自 旋 锁 ， 该 函数 返回 0。 同 理 ， 
spin is_locked0 方法 用 于 检查 特定 的 锁 当 前 是 否 已 被 占用 ， 如 果 已 被 占用 ， 返 回 非 0 值 ; 否则 返 
回 0。 读 方法 只 做 判断 ， 并 不 实际 占用 日。 

表 10-4 给 出 了 标 崔 的 自 旋 锁 操作 的 完整 列表 。 


表 10-4 自 旋 锁 方法 列表 


方 ” 法 描 述 

in_lock() 获取 指定 的 自 旋 锁 
spin lock irq() 禁止 本 地 中 断 并 获取 指定 的 锁 
spin_lock irqsave() 保存 本 地 中 断 的 当前 状态 ， 禁 止 本 地 中 断 ， 并 获取 指定 的 镇 
spin_unlock() 释放 指定 的 锁 
spin_ unlock irqg(0) 释放 指定 的 锁 ， 并 激活 本 地 中 断 
spin_unlock irqrestore() 释放 指定 的 锁 ， 并 让 本 地 中 断 恢复 到 以 前 状态 
spin_ lock init() 动态 初始 化 指定 的 spinlock t 
spin_trylock() 试图 获取 指定 的 锁 ， 如 果 未 获取 ， 则 返回 非 0 
spin is locked0 如 果 指 定 的 镇 当前 正在 被 获取 ， 则 返回 非 0， 否 则 返回 0 


10.2.3 自 旋 锁 和 下 半 部 


在 第 8 章 中 曾经 提 到 ， 在 与 下 半 部 配合 使 用 时 ， 必 须 小 心地 使 用 锁 机 制 。 函 数 spin_lock_bhO 用 
于 获取 指定 锁 ， 同 时 它 会 禁止 所 有 下 半 部 的 执行 。 相 应 的 spin_unlock bh0 函数 执行 相反 的 操作 。 

由 于 下 半 部 可 以 抢占 进程 上 下 文中 的 代码 ， 所 以 当下 半 部 和 进程 上 下 文 共享 数据 时 ， 必 须 对 
进程 上 下 文中 的 共享 数据 进行 保护 ， 所 以 需要 加 锁 的 同时 还 要 禁止 下 半 部 执行 。 同 样 ， 由 于 中 断 
处 理 程序 可 以 抢占 下 半 部 ， 所 以 如 果 中 断 处 理 程序 和 下 半 部 共享 数据 ， 那 么 就 必须 在 获取 恰当 的 
锁 的 同时 还 要 禁止 中 断 。 

回忆 一 下 ， 同 类 的 tasklet 不 可 能 同时 运行 ， 所 以 对 于 同类 tasklet 中 的 共享 数据 不 需要 保护 。 
但 是 当 数 据 被 两 个 不 同 种 类 的 tasklet 共享 时 ， 就 需要 在 访问 下 半 部 中 的 数据 前 先 获得 一 个 普通 
的 自 旋 锁 。 这 里 不 需要 禁止 下 半 部 ， 因 为 在 同一 个 处 理 器 上 绝 不 会 有 tasklet 相互 强占 的 情况 。 

对 于 软 中 断 ， 无 论 是 否 同 种 类 型 ， 如 果 数 据 被 软 中 断 共 享 ， 那 么 它 必 须 得 到 锁 的 保护 。 这 是 
因为 ， 即 使 是 同 种 类 型 的 两 个 软 中 断 也 可 以 同时 运行 在 一 个 系统 的 多 个 处 理 器 上 。 但 是 ， 同 一 处 
理 器 上 的 一 个 软 中 断绝 不 会 抢占 另 一 个 软 中 断 ， 因 此 ， 根 本 设 必要 禁止 下 半 部 。 


10.3 读 - 写 自 旋 锁 
有 时 ， 锁 的 用 途 可 以 明确 地 分 为 读 取 和 写 人 两 个 场景 。 例 如 ， 对 一 个 链表 可 能 既 要 更 新 又 要 


日 、 这 两 个 方法 往往 让 代码 变 得 令 人 费解 ， 一 般 来 说 用 不 着 经 常 检查 自 旋 锁 的 一 一 你 的 代码 本 身 应 该 要 么 直接 请 求 占用 
锁 ， 要 么 应 该 在 占用 锁 之 后 才能 被 调用 。 不 过 ， 它 们 还 是 有 些 合理 用 途 ， 所 以 Limr 内 核 也 就 提供 了 这 样 的 接口 。 
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检索 。 当 更 新 〈 写 人 ) 链表 时 ， 不 能 有 其 他 代码 并 发 地 写 链表 或 从 链表 中 读 取 数据 ， 写 操作 要 求 
完全 互 斥 。 另 一 方面 ， 当 对 其 检索 〈 读 取 ) 链表 时 ， 只 要 其 他 程序 不 对 链表 进行 写 操作 就 行 了 。 
只 要 没有 写 操作 ， 多 个 并 发 的 读 操作 都 是 安全 的 。 任 务 链表 的 存 取 模 式 〈 在 第 3 章 中 讨论 过 ) 就 
非常 类 似 于 这 种 情况 ， 它 就 是 通过 读 一 写 日 旋 锁 获得 保护 的 。 

当 对 某 个 数据 结构 的 操作 可 以 像 这 样 被 划分 为 读 / 写 或 者 消费 者 /生产 者 两 种 类 别 时 ， 类 
似 读 / 写 锁 这 样 的 机 制 就 很 有 帮助 了 。 为 此 ，Linux 内 核 提供 了 专门 的 读 一 写 自 旋 锁 。 这 种 自 
旋 锁 为 读 和 写 分 别提 供 了 不 同 的 锁 。 一 个 或 多 个 读 任务 可 以 并 发 地 持 有 读者 锁 ; 相反 ， 用 于 写 
的 锁 最 多 只 能 被 一 个 写 任务 持 有 ， 而 且 此 时 不 能 有 并 发 的 读 操 作 。 有 时 把 读 / 写 锁 叫 做 共享 / 
排斥 锁 ， 或 者 并 发 /排斥 锁 ， 因 为 这 种 锁 以 共享 〔 对 读者 而 言 ) 和 排斥 《对 写 者 而 言 ) 的 形式 
获得 使 用 。 

读 / 写 自 旋 锁 的 使 用 方法 类 似 于 普通 目 旋 锁 ， 它 们 通过 下 面 的 方法 初始 化 : 


DEFINE RWLOCK (mr rwlock); 


然后 ， 在 读者 的 代码 分 支 中 使 用 如 下 函数 : 


read lock(&mr rwlock).; 
/* 临界 区 { 只 读 )…*/ 


read unlock (gmr rwlock):; 


最 后 ， 在 写 者 的 代码 分 支 中 使 用 如 下 国 数 : 


write lockl{l&mr rwlock).:; 

/* 临界 区 { 读 写 }…*/ 

write unlock (Emr rwlock):; 

通常 情况 下 ， 读 锁 和 写 锁 会 位 于 完全 分 割 开 的 代码 分 支 中 ， 如 上 例 所 示 。 
注意 ， 不 能 把 一 个 读 锁 “ 升 级 ”为 写 锁 。 比 如 考虑 下 面 这 段 代码 : 


read lock(l&gmr rwlock); 
Write lock (gmr rwlock); 


执行 上 述 两 个 函数 将 会 带 来 死 锁 ， 因 为 写 锁 会 不 断 自 旋 ， 等 待 所 有 的 读者 释放 锁 ， 其 中 也 
包括 它 自己 。 所 以 当 确 实 需要 写 操作 时 ， 要 在 一 开始 就 请 求 写 锁 。 如 果 写 和 读 不 能 清晰 地 分 开 的 
话 ， 那 么 使 用 一 般 的 自 旋 锁 就 行 了 ， 不 要 使 用 读 一 写 自 旋 锁 。 

多 个 读者 可 以 安全 地 获得 同一 个 读 锁 ， 事 实 上 ， 即 使 一 个 线程 递归 地 获得 同一 读 锁 也 是 安 
全 的 。 这 个 特性 使 得 读 一 写 自 旋 锁 真正 成 为 一 种 有 用 并 且 常 用 的 优化 手段 。 如 果 在 中 断 处 理 程 
序 中 只 有 读 操 作 而 没有 写 操作 ， 那 么 ， 就 可 以 混合 使 用 “中 断 禁 止 ” 锁 ， 使 用 read_lock0 而 不 
是 read_lock_irqsave() 对 读 进 行 保护 。 不 过 ， 你 还 是 需要 用 write lock _irqsave0 禁止 有 写 操作 的 
中 断 ， 否 则 ， 中 渐 里 的 读 操作 就 有 可 能 锁 死 在 写 锁 上 9S。 表 10-5 列 出 了 针对 读 一 写 自 旋 锁 的 所 
有 操作 。 


日 ”假如 读者 正在 进行 操作 ， 包 含 与 操作 的 中 断 发 生 了 ， 由 于 读 锁 还 役 有 全 部 被 释放 ， 所 以 写 操 作 会 自 旋 ， 而 该 
操作 只 能 在 包含 写 操作 的 中 断 返 回 后 才能 继续 ， 释 放 读 锁 ， 此 时 死 锁 就 发 生 了 。 一 一 译 者 注 


方 ”法 
read lock() 
read lock irg0) 
read lock irqsave() 
read unlock() 
read unlock irq0) 
read uniock irgrestore() 
write_lock() 
write lock irq() 
write lock irqsave() 
write unlock() 
Write unlock irqg() 
write unlock irgrestore() 
Write trylock 
rwlock init() 
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表 10-5 读 一 写 自 旋 锁 方 法 列表 


描 述 
获得 指定 的 读 锁 

禁止 本 地 中 断 并 获得 指定 读 锁 

存储 本 地 中 断 的 当前 状态 ， 禁 止 本 地 中 断 并 获得 指定 读 镇 
释放 指定 的 读 销 

释放 指定 的 读 锁 并 激活 本 地 中 断 

释放 指定 的 读 锁 并 将 本 地 中 新 恢复 到 指定 的 前 状态 

获得 指定 的 写 销 : 

禁止 本 地 中 断 并 获得 指定 写 销 : 

存储 本 地 中 断 的 当前 状态 ， 禁 止 本 地 中 断 并 获得 指定 写 镇 
释放 指定 的 写 锁 

释放 指定 的 写 锁 并 激活 本 地 中 断 

释放 指定 的 写 镇 并 将 本 地 中 断 恢复 到 指定 的 前 状态 
试图 获得 指定 的 写 锁 ; 如 果 写 锁 不 可 用 ， 返 回 非 0 值 
初始 化 指定 的 rwlock t 


在 使 用 Linux 读 一 写 自 旋 锁 时 ， 最 后 要 考虑 的 一 点 是 这 种 锁 机 制 照 顾 读 比照 顾 写 要 多 一 点 。 
当 读 锁 被 持 有 时 ， 写 操作 为 了 互 斥 访问 只 能 等 待 ， 但 是 ， 读 者 却 可 以 继续 成 功 地 作 占 用 锁 。 而 自 
旋 等 待 的 写 者 在 所 有 读者 释放 锁 之 前 是 无 法 获得 锁 的 。 所 以 ， 大 量 读者 必定 会 使 挂 起 的 写 者 处 于 
饥饿 状态 ， 在 你 自己 设计 锁 时 一 定 要 记 住 这 一 点 一 一 有 些 时 候 这 种 行为 是 有 益 的 ， 有 了 时 则 会 带 来 
灾难 。 

自 旋 锁 提 供 了 一 种 快速 简单 的 锁 实 现 方法 。 如 果 加 锁 时 间 不 长 并 且 代 码 不 会 睡眠 〈 比 如 中 
断 处 理 程序 )， 利 用 目 旋 锁 是 最 佳 选 择 。 如 果 加 锁 时 间 可 能 很 长 或 者 代码 在 持 有 锁 时 有 可 能 睡眠 ， 
那么 最 好 使 用 信号 量 来 完成 加 锁 功 能 。 


10.4 信号 量 


Linux 中 的 信号 量 是 一 种 睡眠 锁 。 如 果 有 一 个 任务 试图 获得 一 个 不 可 用 【〈 已 经 镶 占 用 ) 的 信 
号 量 时 ， 信 号 量 会 将 其 推进 一 个 等 待 队列 ， 然 后 让 其 睡眠 。 这 时 处 理 器 能 重 获 自由 ， 从 而 去 执行 
其 他 代码 。 当 持 有 的 信号 量 可 用 (被 释放 〉 后 ， 处 于 等 待 队列 中 的 那个 任务 将 被 唤醒 ， 并 获得 该 
信和 扎 量 。 

让 我 们 再 一 次 回 到 门 和 销 匙 的 例子 。 当 某 个 人 到 了 门 前 ， 他 抓 取 和 钥匙 ， 然 后 进入 房间 。 最 大 
的 差异 在 于 当 另 一 个 人 到 了 门 前 ， 但 无 法 得 到 钥匙 时 会 发 生 什么 情况 。 在 这 种 情况 下 ， 这 家 伙 不 
是 在 徘徊 等 待 ， 而 是 把 自己 的 名 字 写 在 一 个 列表 中 ， 然 后 打 睫 去 了 。 当 里 面 的 人 离开 房间 时 ， 就 
在 门口 查看 一 下 列表 。 如 果 列 表 上 有 名 字 ， 他 就 对 第 一 个 名 字 仔 细 检 查 ， 并 在 胸部 给 他 一 拳 ， 叫 
醒 他 ， 让 他 进入 房间 。 在 这 种 方式 中 ， 钥 匙 〈 相 当 于 信和 号 量 ) 继续 确保 一 次 只 有 一 个 人 【相当 于 
执行 线程 》 进 入 房间 《相当 于 临界 区 )。 这 就 比 自 旋 锁 提 供 了 更 好 的 处 理 器 利用 率 ， 因 为 没有 把 
时 间 花 费 在 忙 等 待 上 ， 但 是 ， 信 号 量 比 自 旋 锁 有 更 大 的 开销 。 生 活 总 是 一 分 为 二 的 。 


内 共同 劳 万 法 153 


我 们 可 以 从 信号 量 的 睡眠 特性 得 出 一 些 有 意思 的 结论 : 

* 由 于 争 用 信和 号 量 的 进程 在 等 待 锁 重新 变 为 可 用 时 会 睡眠 ， 所 以 信号 量 适 用 于 锁 会 被 长 时 间 

持 有 的 情况 。 

* 相反， 锁 被 短 时 间 持 有 时， 使 用 信号 量 就 不 太 适宜 了。 因为 睡 卢 、 维 护 等 待 队 列 以 及 唤醒 

所 花费 的 开销 可 能 比 锁 被 占用 的 全 部 时 间 还 要 长 。 

* 由 于 执行 线程 在 锁 被 争 用 时 会 睡 卢 ， 所 以 只 能 在 进程 上 下 文中 才能 获取 信号 量 销 ， 因 为 在 

中 断 上 下 文中 是 不 能 进行 调度 的 。 

* 你 可 以 在 持 有 信和 号 量 时 去 睡眠 〈 当 然 你 也 可 能 并 不 需要 睡眠 )， 因 为 当 其 他 进程 试图 获得 同 

一 信号 量 时 不 会 因此 而 死 锁 〈 因 为 该 进程 也 只 是 去 睡眠 而 已 ， 而 你 最 终 会 继续 执行 的 )。 

"在 你 占用 信和 号 量 的 同时 不 能 占用 自 旋 锁 。 因 为 在 你 等 待 信和 号 量 时 可 能 会 睡眠 ， 而 在 持 有 自 

旋 锁 时 是 不 允许 睡眠 的 。 

以 上 这 些 结 论 阐明 了 信号 量 和 自 旋 锁 在 使 用 上 的 差异 。 在 使 用 信号 量 的 大 多 数 时 候 ， 你 的 
选择 余地 并 不 大 。 往 往 在 需要 和 用 户 空间 同步 时 ， 你 的 代码 会 需要 睡眠 ， 此 时 使 用 信号 量 是 唯一 
的 选择 。 由 于 不 受 睡 眠 的 限制 ， 使 用 信号 量 通常 来 说 更 加 容易 一 些 。 如 果 需 要 在 自 旋 锁 和 信和 号 量 
中 做 选择 ， 应 该 根据 锁 被 持 有 的 时 间 长 短 做 判断 。 理 想 情 况 当然 是 所 有 的 锁定 操作 都 应 该 越 短 越 
好 。 但 如 果 你 用 的 是 信号 量 ， 那 么 锁定 的 时 间 长 一 点 也 能 够 接受 。 另 外 ， 信 和 号 量 不 同 于 自 旋 锁 ， 
它 不 会 禁止 内 核 抢 占 ， 所 以 持 有 信和 号 量 的 代码 可 以 被 抢占 。 这 意味 着 信号 量 不 会 对 调度 的 等 待 时 
间 带 来 负面 影响 。 


10.4.1 计数 信号 量 和 二 值 信号 量 


最 后 要 讨论 的 是 信号 量 的 一 个 有 用 特性 ， 它 可 以 同时 人 允许 任意 数量 的 锁 持 有 者 ， 而 自 旋 锁 在 
一 个 时 刻 最 多 允许 一 个 任务 持 有 它 。 信 号 量 同时 允许 的 持 有 者 数量 可 以 在 声明 信号 量 时 指定 。 这 
个 值 称 为 使 用 者 数量 (usage count) 或 简单 地 叫 数量 (count)。 通 常情 况 下 ， 信 号 量 和 自 旋 锁 一 
样 ， 在 一 个 时 刻 仅 允许 有 一 个 锁 持 有 者 。 这 时 计数 等 于 1， 这 样 的 信号 量 被 称 为 二 值 信号 量 ( 因 
为 它 或 者 由 一 个 任务 持 有 ， 或 者 根本 没有 任务 持 有 它 ) 或 者 称 为 互 斥 信号 量 ( 因 为 它 强制 进行 互 
斥 )。 另 一 方面 ， 初 始 化 时 也 可 以 把 数量 设置 为 大 于 1 的 非 0 值 。 这 种 情况 ， 信 和 号 量 被 称 为 计数 
信号 量 〈counting semaphone)， 它 允许 在 一 个 时 刻 至 多 有 count 个 锁 持 有 者 。 计 数 信号 量 不 能 用 
来 进行 强制 互 斥 ， 因 为 它 允 许多 个 执行 线程 同时 访问 临界 区 。 相 反 ， 这 种 信号 量 用 来 对 特定 代码 
加 以 限制 ， 内 核 中 使 用 它 的 机 会 不 多 。 在 使 用 信号 量 时 ， 基 本 上 用 到 的 都 是 互 斥 信号 量 (计数 等 
于 1 的 信号 量 )。 

信号 量 在 1968 年 由 Edsger Wybe Dijkstra 昌 提 出 ， 此 后 它 逐 渐 成 为 一 种 常用 的 锁 机 制 。 信 号 
量 支 持 两 个 原子 操作 PO 和 VO， 这 两 个 名 字 来 自 荷 兰 语 Proberen 和 Vershogen。 前 者 叫做 测试 
操作 (字面 意思 是 探查 )， 后 者 叫做 增加 操作 。 后 来 的 系统 把 两 种 操作 分 别 叫 做 down( 和 up()， 


但 ”Dijkstra 博士 1930 一 2002)〉 是 计算 机 科学 史上 最 为 成 功 的 科学 家 之 一 ， 他 在 操作 系统 设计 、 算 法 理论 和 信号 
最 概念 的 创建 等 诸多 领域 做 出 了 章 越 的 贡献 。 他 生 于 荷兰 的 座 特 丹 ， 曾 在 克 萨 斯 大 学 任教 15 年 。 不 过 他 疏 怕 
对 Linux 中 间 夹 杂 的 大 量 GOTO 语句 不 太 满 意 。 
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Linux 也 遵从 这 种 叫 法 。down() 操作 通过 对 信号 量 计数 减 1 来 请 求 获得 一 个 信号 量 。 如 果 结 果 是 
0 或 大 于 0， 获得 信号 量 锁 ， 任 务 就 可 以 进入 临界 区 。 如 果 结 果 是 负数 ， 任 务 会 被 放 人 等 待 队 列 ， 
处 理 融 执行 其 他 任务 。 该 函数 如 同一 个 动词 ， 降 低 (down) 一 个 信号 量 就 等 于 获取 该 信号 量 。 
相反 ， 当 临界 区 中 的 操作 完成 后 ，up0 操作 用 来 释放 信号 量 ， 该 操作 也 被 称 作 是 提升 (upping) 
信和 号 量 ， 因 为 它 会 哮 加 信和 号 量 的 计数 仁 。 如 果 在 该 信号 量 上 的 等 待 队列 不 为 空 ， 那 么 处 于 队列 中 
等 待 的 任务 在 被 唤醒 的 同时 会 获得 该 信号 量 。 


10.4.2 ”创建 和 初始 化 信号 量 


信号 量 的 实现 是 与 体系 结构 相关 的 ， 具 体 实 现 定义 在 文件 <asm/semaphore.h> 中 。struct 
semaphore 类 型 用 来 表示 信号 量 。 可 以 通过 以 下 方式 静态 地 声明 信号 量 一 其 中 name 是 信号 量 
变量 名 ，count 是 信号 量 的 使 用 数量 : 

struct semaphore name; 

sema init (kname, count); 

创建 更 为 普通 的 互 斥 信号 量 可 以 使 用 以 下 快捷 方式 ， 不 用 说 ，name 仍然 是 互 斥 信号 量 的 
变量 名 : 


static DECLARE MUTEX {name); 


更 常见 的 情况 是 ， 信 号 量 作为 一 个 大 数据 结构 的 一 部 分 动态 创建 。 此 时 ， 只 有 指向 该 动态 创 
建 的 信号 量 的 间接 指针 ， 可 以 使 用 如 下 函数 来 对 它 进行 初始 化 : 


Bema init (sem, count) ; 


sem 是 指针 ，count 是 信和 号 量 的 使 用 者 数量 。 
与 前 面 类 似 ， 初 始 化 一 个 动态 创建 的 互 斥 信号 量 时 使 用 如 下 函数 : 


init MUTEX (Sem);} 


我 不 明白 为 什么 “mutex” 在 init MUTEX( 中 是 大 写 ， 或 者 为 什么 “init” 在 这 个 函数 名 中 
放 在 前 面 ， 而 在 sema_init( 中 放 在 后 面 。 不 知道 在 你 读 第 8 章 时 ， 有 没有 被 这 些 不 一 致 的 命名 方 
法 打 问 呢 。 


10.4.3 ”使 用 信号 量 


函数 down_interruptible() 试图 获取 指定 的 信号 量 ， 如 果 信 和 号 量 不 可 用 ， 它 将 把 调用 进程 置 成 
TASK_INTERRUPTIBLE 状态 一 一 进入 睡眠 。 回 忆 第 3 章 的 内 容 ， 这 种 进程 状态 意味 着 任务 可 
以 被 信号 唤醒 ， 一 般 来 说 这 是 件 好 事 。 如 果 进 程 在 等 待 获取 信和 号 量 的 时 候 接收 到 了 信和 号， 那么 
该 进程 就 会 被 唤醒 ， 而 函数 down_interruptible() 会 返回 -EINTR。 另 外 一 个 函数 down() 会 让 进 
程 在 TASK_UNINTERRUPTIBLE 状态 下 睡眠 。 你 应 该 不 希望 这 种 情况 发 生 ， 因 为 这 样 一 来 ， 
进程 在 等 待 信号 量 的 时 候 就 不 再 响应 信号 了 。 因 此 ， 使 用 down_interruptible() 比 使 用 down() 
更 为 普遍 (也 更 正确 )。 也 许 你 会 觉得 这 两 个 函数 名 字 起 得 有 点 不 恰当 ， 的 确 ， 这 些 命名 并 不 
很 理想 。 
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使 用 down_trylock( 国 数 ， 你 可 以 尝试 以 堵塞 方式 来 获取 指定 的 信号 量 。 在 信号 量 已 被 占用 
时 ， 它 立刻 返回 非 0 值 ; 否则 ， 它 返回 0， 而 且 让 你 成 功 持 有 信号 量 锁 。 

要 释放 指定 的 信号 量 ， 需 要 调用 up0O 函数 。 例 如 : 

/* 定义 并 声明 一 个 信号 景 ， 名 字 为 mr_sem， 用 于 信号 量 计数 */ 


static DECLARE MUTEX (mr sem);} 


/* 试图 获取 信号 量 ... */ 
if (down interruptible(&mr sem)) 

/* 信号 被 接收 ， 信 号 景 还 未 歼 取 */ 
| 


/* 临界 区 ... */ 


/* 释放 给 定 的 信号 是 */ 


Up (Emr Sem); 
表 10-6 给 出 了 针对 信号 量 的 方法 的 完整 列表 。 
表 10-6 信和 号 量 方法 列表 


方 ” 法 描 述 
sema init(stract semaphore *,int) 以 指定 的 计数 值 初始 化 动态 创建 的 信号 晤 
init MUTEX(struct semaphore *) 以 计数 值 1 初始 化 动态 创建 的 信号 量 
以 计数 值 0 初始 化 动态 创建 的 信号 量 
Init MUTEX LOCKED(struct oA *) ( 初始 为 加 镇 状 态 ) 


以 试图 获得 指定 的 信号 量 ， 如 果 信 号 量 
已 被 争 用 ， 则 进入 可 中 断 睡眠 状态 


以 试图 获得 指定 的 信号 量 ， 如 果 信 和 号 量 
已 被 争 用 ， 则 进入 不 可 中 断 睡 眠 状态 


以 试图 获得 指定 的 信号 量 ， 如 果 信 和 号 量 
已 被 争 用 ， 则 立刻 返回 非 0 值 


up(struct semaphore *) di 2 ， 如 果 有 睡眠 队列 不 空 ， 


10.5 读 - 写 信号 量 

与 自 旋 锁 一 样 ， 信 号 量 也 有 区 分 读 一 写 访问 的 可 能 。 与 读 - 写 自 旋 锁 和 普通 自 旋 锁 之 间 的 
关系 差不多 ， 读 一 写 信号 量 也 要 比 普通 信号 量 更 具 优势 。 

读 一 写 信号 量 在 内 核 中 是 由 rw_semaphore 结构 表示 的 ， 定 义 在 文件 <linux/rwsem.h> 中 。 
通过 以 下 语句 可 以 创建 静态 声明 的 读 一 写 信号 量 : 


static DECLARE RWSEM (name); 


其 中 name 是 新 信号 量 名 。 
动态 创建 的 读 一 写 信和 号 量 可 以 通过 以 下 函数 初始 化 : 


down_interruptible(struct semaphore *) 
down(struct semaphore *) 


down trylock(struct semaphore *) 
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init rwsem(struct rw semaphore *sem).. 


所 有 的 读 一 写 信号 量 都 是 互 斥 信号 量 一 一 也 就 是 说 ， 它 们 的 引用 计数 等 于 |， 虽然 它们 只 对 
写 者 互 斥 ， 不 对 读者 。 只 要 没有 写 者 ， 并 发 持 有 读 锁 的 读者 数 不 限 。 相 反 ， 只 有 了 唯一 的 写 者 (在 
没有 读者 时 ) 可 以 获得 写 锁 。 所 有 读 - 写 锁 的 睡眠 都 不 会 被 信号 打 断 ， 所 以 它 只 有 一 个 版 本 的 
down() 操作 。 例 如 : 


static DECLARE RISEMImF 工 WSemj : 


/* 试图 获取 信号 量 用 于 读 ... */ 


down read(l&mr rwsem); 
/* 临界 区 (只 读 )...*/ 
/* 释放 信号 量 */ 


up _ read(&mr rwsem); 


ge 
/* 试图 获取 信号 量 用 于 写 ... */ 


down write{gmr rwsem).; 
/* 临界 区 ( 读 和 写 )...*/ 
/* 释放 信号 最 */ 


up_write{&mr sem); 

与 标准 信号 量 一 样 ， 读 一 写 信 和 号 量 也 提供 了 down_read_trylockO 和 down_write_trylock( 方 
法 。 这 两 个 方法 都 需要 一 个 指向 读 - 写 信 号 量 的 指针 作为 参数 。 如 果 成 功 获 得 了 信号 量 锁 ， 它 
们 返回 非 0 值 ; 如 果 信 号 量 锁 被 争 用 ， 则 返回 0。 要 小 心 ( 不 知道 为 什么 要 这 样 ) 这 与 普通 信号 
量 的 情形 完全 相反 。 

读 - 写 信号 量 相 比 读 - 写 自 旋 锁 多 一 种 特有 的 操作 : downgrade_write()。 这 个 函数 可 以 动 
态 地 将 获取 的 写 锁 转换 为 读 锁 。 

读 一 写 信 号 量 和 读 一 写 自 旋 锁 一 样 ， 除 非 代 码 中 的 读 和 写 可 以 明白 无 误 地 分 割 开 来 ， 否 则 
最 好 不 使 用 它 。 再 强调 一 次 ， 读 一 写 机 制 使 用 是 有 条 件 的 ， 只 有 在 你 的 代码 可 以 自然 地 界定 出 
读 一 写 时 才 有 价值 。 


10.6 互 斥 体 


直到 最 近 ， 内 核 中 唯一 允许 睡眠 的 锁 是 信号 量 。 多 数 用 户 使 用 信号 量 只 使 用 计数 1， 说白 了 
是 把 其 作为 一 个 互 斥 的 排他 锁 使 用 一 一 好 比 允 许 睡眠 的 自 旋 锁 。 不 幸 的 是 ， 信 号 量 用 途 更 通用 ， 
没 多 少 使 用 限制 。 这 点 使 得 信号 量 适 合用 于 那些 较 复 杂 的 、 未 明 情况 下 的 互 斥 访问 ， 比 如 内 核 于 
用 户 空 间 复 杂 的 交互 行为 。 但 这 也 意味 着 简单 的 锁定 而 使 用 信号 量 并 不 方便 ， 并 且 信 号 量 也 缺乏 
强制 的 规则 来 行使 任何 形式 的 自动 调试 ， 即 便 受 限 的 调试 也 不 可 能 。 为 了 找到 一 个 更 简单 睡眠 
锁 ， 内 核 开发 者 们 引入 了 互 斥 体 (mutex)。 确 实 ， 这 个 名 字 容 易 和 我 们 的 习惯 称呼 混淆 。 所 以 这 
里 我 们 证 请 一 下 ,“ 互 斥 体 (mutex)” 这 个 称谓 所 指 的 是 任何 可 以 睡眠 的 强制 互 斥 锁 ， 比 如 使 用 


本 


计数 是 1 的 信号 量 。 但 在 最 新 的 Linux 内 核 中 ,“ 互 斥 体 (mutex)” 这 个 称谓 现在 也 用 于 一 种 实 
现 互 斥 的 特定 睡眠 锁 。 也 就 是 说 ， 互 斥 体 是 一 种 互 斥 信和 号。 

mutex 在 内 核 中 对 应 数据 结构 mutex， 其 行为 和 使 用 计数 为 1 的 信号 量 类 似 ， 但 操作 接口 更 
简单 ， 实 现 也 更 高 效 ， 而 且 使 用 限制 更 强 。 静 态 地 定义 mmutex， 你 需要 做 : 


DEFINE MUTEX (name); 


动态 初始 化 mutex， 你 需要 做 : 


mtex init{(&gmutex).;} 
对 互 帮 锁 锁定 和 解锁 并 不 难 : 
mtex lock{E&gmutex); 


/* 临界 区 */ 


mutex unlock (kmutex); 


看 到 了 吧 ， 它 就 是 一 个 简化 版 的 信号 量 ， 因 为 不 再 需要 管理 任何 使 用 计数 。 
表 10-7 是 基本 的 mutex 操作 列表 。 


表 10-7 Mutex 方法 


方 ” 法 .描述 
mutex lock(struct mutex *) 为 指定 的 mutex 上 锁 ， 如 果 锁 不 可 用 则 睡眠 : 
mutex_ unlock(stract mutex *) 为 指定 的 mutex 解锁 
mutex_trylock(struct mutex *) 试图 获取 指定 的 mutex， 如 果 成 功 则 返回 1 ; 否则 锁 被 获取 ， 返 回 值 是 0 
和 mutex is locked (struct mutex *) | 如 果 销 已 被 慎 用 ， 则 返回 1 ; 否则 返回 0 


mutex 的 简洁 性 和 高 效 性 源 自 于 相 比 使 用 信号 量 更 多 的 受 限 性 。 它 不 同 于 信号 量 ， 因 为 
mutex 仅仅 实现 了 Dijkstra 设计 初 囊 中 的 最 基本 的 行为 。 因 此 mutex 的 使 用 场景 相对 而 言 更 严格 、 
更 定向 了 。 
。 任何 时 刻 中 只 有 一 个 任务 可 以 持 有 mutex， 也 就 是 说 ，mutex 的 使 用 计数 永远 是 1。 
“给 mutex 上 销 者 必须 负责 给 其 再 解锁 一 一 你 不 能 在 一 个 上 下 文中 锁定 一 个 mutex， 而 在 另 
一 个 上 下 文中 给 它 解 锁 。 这 个 限制 使 得 mutex 不 适合 内 核 同 用 户 空间 复杂 的 同步 场景 。 最 
常 使 用 的 方式 是 : 在 同一 上 下 文中 上 锁 和 解锁 。 

"递归 地 上 锁 和 解锁 是 不 允许 的 。 也 就 是 说 ， 你 不 能 递归 地 持 有 同一 个 锁 ， 同 样 你 也 不 能 再 
去 解锁 一 个 已 经 被 解 开 的 mutex. 

。 当 持 有 一 个 mutex 时 ， 进 程 不 可 以 退出 。 

* mutex 不 能 在 中 断 或 者 下 半 部 中 使 用 ， 即 使 使 用 mutex_trylock0 也 不 行 。 

“mutex 只 能 通过 官方 API 管理 ; 它 只 能 使 用 上 节 中 描述 的 方 靶 初始 化 ， 不 可 被 拷贝 、 手 动 

初始 化 或 者 重复 初始 化 。 

也 许 mutex 结构 最 有 用 的 特色 是 : 通过 一 个 特殊 的 调试 模式 ， 内 核 可 以 采用 编程 方式 检查 
和 警告 任何 践踏 其 约束 法 则 的 不 老实 行为 。 当 打开 内 核 配置 选项 CONFIG_DEBUG _MUTEXES 
后 ， 就 会 有 多 种 检测 来 确保 这 些 (还 有 别 的 一 些 ) 约 东 得 以 遵守 。 这 些 调试 手段 无 疑 能 帮助 你 和 
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其 他 mutex 使 用 者 们 都 能 以 规范 式 的 、 简 单 化 的 使 用 模式 对 其 使 用 。 


10.6.1 信和 号 量 和 互 斥 体 


互 斥 体 和 信和 号 量 很 相似 ， 内 核 中 两 者 共存 会 令 人 混 谓 。 所 幸 ， 它 们 的 标准 使 用 方式 都 有 简单 
的 规范 : 除非 mutex 的 某 个 约束 妨碍 你 使 用 ， 否 则 相 比 信号 量 要 优先 使 用 mutex。 当 你 写 新 代码 
时 ， 只 有 碰 到 特殊 场合 (一般 是 很 底层 代码 ) 才 会 需要 使 用 信号 量 。 因 此 建议 首选 mutex。 如 果 
发 现 不 能 满足 其 约束 条 件 ， 且 没有 其 他 别 的 选择 时 ， 再 莹 虑 选择 信号 量 。 


10.6.2 ” 自 旋 锁 和 互 斥 体 


了 解 何 时 使 用 自 旋 锁 ， 何 时 使 用 互 斥 体 〈 或 信号 量 ) 对 编写 优良 代码 很 重要 ， 但 是 多 数 情 况 
下 ， 并 不 需要 太 多 的 考虑 ， 因 为 在 中 断 上 下 文中 只 能 使 用 自 旋 锁 ， 而 在 任务 睡眠 时 只 能 使 用 互 斥 
体 。 表 10-8 回顾 了 一 下 各 种 锁 的 需求 情况 。 


表 10-8 使 用 什么 : 自 旋 锁 与 信号 量 的 比较 


需 求 建议 的 加 锁 方法 
低 开销 加 锁 优先 使 用 自 旋 锁 
短期 锁定 优先 使 用 自 旋 锁 
长 期 加 锁 优先 使 用 互 斥 体 
中 断 上 下 文中 加 锁 使 用 自 旋 锁 
持 有 锁 需 要 睡眠 使 用 互 斥 体 
10.7 完成 变量 


如 果 在 内 核 中 一 个 任务 需要 发 出 信号 通知 另 一 任务 发 生 了 某 个 特定 事件 ， 利 用 完成 变量 
(completion variable) 是 使 两 个 任务 得 以 同步 的 简单 方法 。 如 果 一 个 任务 要 执行 一 些 工 作 时 ， 男 
一 个 任务 就 会 在 完成 变量 上 等 待 。 当 这 个 任务 完成 工作 后 ， 会 使 用 完成 变量 去 唤醒 在 等 待 的 任 
务 。 这 听 起 来 很 像 一 个 信号 量 ， 的 确 如 此 一 一 思想 是 一 样 的 。 事 实 上， 完成 变量 仅仅 提供 了 代替 
信号 量 的 一 个 简单 的 解决 方法 。 例 如 ， 当 子 进程 执行 或 者 退出 时 ，vfork() 系统 调用 使 用 完成 变量 
唤醒 父 进 程 。 

完成 变量 由 结构 completion 表示 ， 定 义 在 <linux/completion.h> 中 。 通 过 以 下 宏 静 态 地 创建 
完成 变量 并 初始 化 它 : 


DECLARE COMPLETION (mr_ comp); 


通过 init_completion0 动态 创建 并 初始 化 完成 变量 。 

在 一 个 指定 的 完成 变量 上 ， 需 要 等 待 的 任务 调用 wait_for_completion() 来 等 待 特定 事件 。 当 
特定 事件 发 生 后 ， 产 生 事 件 的 任务 调用 complete0 来 发 送信 号 唤醒 正在 等 待 的 任务 。 表 10-9 列 
出 了 完成 变量 的 方法 。 
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表 10-9 完成 变量 方法 


方 法 描 『 述 
init completion(struct completion *) 初始 化 指定 的 动态 创建 的 完成 变量 
wait_for_completion(struct completion *) 等 待 指定 的 完成 变量 接收 信号 
complete(struct completion *) 发 信号 唤醒 任何 等 待 任 务 


使 用 完成 变量 的 例子 可 以 参考 kernel/sched.c 和 kernel/fork.c。 完 成 变量 的 通常 用 法 是 ， 
将 完成 变量 作为 数据 结构 中 的 一 项 动态 创建 ， 而 完成 数据 结构 初始 化 工作 的 内 核 代码 将 调用 
wait_for_completion() 进行 等 待 。 初 始 化 完成 后 ， 初 始 化 函数 调用 completion() 唤醒 在 等 待 的 
内 核 任务 。 


10.8 BLK : 大 内 核 锁 


欢迎 来 到 内 核 的 原始 混沌 时 期 。BKL (大 内 核 锁 ) 是 一 个 全 局 自 旋 锁 ， 使 用 它 主要 是 为 了 方 
便 实现 从 Linux 最 初 的 SMP 过 渡 到 细 粒 度 加 锁 机 制 。 我 们 下 面 来 介绍 BKL 的 一 些 有 趣 的 特性 : 

* 持 有 BKL 的 任务 仍然 可 以 睡眠 。 因 为 当 任 务 无 法 被 调度 时 ， 所 加 锁 会 自动 被 丢弃 ; 当 任 

务 被 调度 时 ， 鲁 又 会 被 重新 获得 。 当然， 这 并 不 是 说 ， 当 任务 持 有 BKL 时 ， 睡 眠 是 安全 
的 ， 仅 仅 是 可 以 这 样 做 ， 因 为 睡眠 不 会 造成 任务 死 锁 。 

" BKL 是 一 种 递归 锁 。 一 个 进程 可 以 多 次 请 求 一 个 锁 ， 并 不 会 像 自 旋 锁 那样 产生 死 锁 现象 。 

* BKL 只 可 以 用 在 进程 上 下 文中 。 和 自 旋 锁 不 同 ， 你 不 能 在 中 断 上 下 文中 申请 BLK。 

* 新 的 用 户 不 允许 使 用 BLK。 随 着 内 核 版 本 的 不 断 前 进 ， 越 来 越 少 的 驱动 和 子 系统 再 依赖 于 

BLK 了 。 

这 些 特 性 有 助 于 2.0 版 本 的 内 核 向 2.2 版 本 过 渡 。 在 SMP 支持 被 引 和 人 到 2.0 版 本 时 ， 内 核 中 
一 个 时 刻 上 只 能 有 一 个 任务 运行 (当然 ， 经 过 长 期 发 展 ， 现 在 内 核 已 经 被 很 好 地 线程 化 了 )。2.2 
版 本 的 目标 是 允许 多 处 理 器 在 内 核 中 并 发 执行 程序 。 引 入 BKL 是 为 了 使 到 细 粒 度 加 锁 机 制 的 过 
渡 更 容易 些 ， 虽 然 当 时 BKL 对 内 核 过 渡 很 有 帮助 ， 但 是 目前 它 已 成 为 内 核 可 扩展 性 的 障碍 了 。 

在 内 核 中 不 鼓励 使 用 BKEL。 事 实 上， 新 代码 中 不 再 使 用 BKL， 但 是 这 种 锁 仍 然 在 部 分 内 核 
代码 中 得 到 沿用 ， 所 以 我 们 仍然 需要 理解 BKL 以 及 它 的 接口 。 除 了 前 面 提 到 的 以 外 ，BKL 的 使 
用 方式 和 目 旋 锁 类 似 。 消 数 lock_kernelO 请 求 锁 ，unlock_kernel() 释放 锁 。 一 个 执行 线程 可 以 递 
归 的 请 求 锁 ,但 是 ， 释 放 锁 时 也 必须 调用 同样 次 数 的 unlock_kernel0 操作 ， 在 最 后 一 个 解锁 操作 
完成 后 ， 锁 才 会 被 释放 。 国 数 kernel locked() 检测 锁 当 前 是 否 被 持 有 ， 如 果 被 持 有 ， 返 回 一 个 非 
0 值 ， 否 则 返回 0。 这 些 接 口 被 声明 在 文件 <linux/smp_lock.h> 中 ， 简 单 的 用 法 如 下 : 


lock kernel(); 
/ * 临界 区 ， 对 所 有 共 他 的 BLK 用 户 进行 同步 …… 
* 注意 ， 你 可 以 安全 地 在 此 睡眠 ， 锁 会 悄 无 声息 地 被 释放 
* 当 你 的 任务 被 重新 调度 时 ， 锁 又 会 被 悄 无 声息 地 获取 
* 这 意味 着 你 不 会 处 于 死 锁 状态 ， 但 是 ， 如 果 你 需要 锁 保 护 这 里 的 数据 
* 你 还 是 不 需要 睡眠 
*/ 


unlock kernel(); 
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BKL 在 被 持 有 时 同样 会 禁止 内 核 抢占 。 在 单一 处 理 器 内 核 中 ，BKL 并 不 执行 实际 的 加 锁 操 
作 。 表 10-10 列 出 了 所 有 BKL 函数 。 


表 10-10 ”BKL 函数 列表 


函 数 描述 
lock_kernelO 获得 BKL z 
unlock kernel() 释放 BKL 
kernel locked() 如 果 锁 被 持 有 返回 非 0 值 ， 否 则 返回 0 (UP 总 是 返回 非 0) 


对 于 BKL 最 主要 的 问题 是 确定 BKL 锁 保 护 的 到 底 是 什么 。 多 数 情况 下 ，BKL 更 像 是 保护 
代码 〈 如 “ 它 保护 对 foo() 函数 的 调用 者 进行 同步 ”) 而 不 保护 数据 (如 “保护 结构 foo”)。 这 个 
问题 给 利用 目 旋 锁 取 代 BKL 造成 了 很 大 困难 ， 因 为 难以 判断 BKL 到 底 锁 的 是 什么 ， 更 难 的 是 ， 
发 现 所 有 使 用 BKL 的 用 户 之 间 的 关系 。 


10.9 顺序 锁 


顺序 锁 ， 通 常 简 称 seq 锁 ， 是 在 2.6 版 本 内 核 中 才 引 入 的 一 种 新 型 锁 。 这 种 锁 提供 了 一 种 很 
简单 的 机 制 ， 用 于 读 写 共享 数据 。 实 现 这 种 锁 主要 依靠 一 个 序列 计数 器 。 当 有 疑义 的 数据 被 写 入 
时 ， 会 得 到 一 个 锁 ， 并 且 序 列 值 会 增加 。 在 读 取 数 据 之 前 和 之 后 ， 序 列 号 都 被 读 取 。 如 果 读 取 的 
序列 号 值 相同 ， 说 明 在 读 操 作 进 行 的 过 程 中 设 有 被 写 操作 打 断 过 。 此 外 ， 如 果 读 取 的 值 是 偶数 ， 
那么 就 表明 写 操作 没有 发 生 《 要 明白 因为 锁 的 初 值 是 0， 所 以 写 锁 会 使 值 成 奇数 ， 释 放 的 时 候 变 
成 偶数 )。 

定义 一 个 seq 锁 : 


Seqlock t mr segq_ lock = DEFINE SEQLOCK(mr seq lock).; 


然后 ， 写 锁 的 方法 如 下 : 


write seqlock {gmr seq_lock),; 
/* 写 锁 被 获取 ...*/ 
write SegunlLock (&mr seq lock); 
这 和 普通 目 旋 锁 类 似 。 不 同 的 情况 发 生 在 读 时 ， 并 且 与 自 旋 锁 有 很 大 不 同 : 
ungigned long seq; 
dol{ 
Se 可 = read seqbegin(&mr seq lock); 
/* 读 这 里 的 数据 ...*/ 
}while (read seqretry(&mr seq lock, Seq) ) ; 


在 多 个 读者 和 少数 写 者 共享 一 把 锁 的 时 候 ，seq 锁 有 助 于 提供 一 种 非常 轻 量 级 和 具有 可 扩展 
性 的 外 观 。 但 是 seq 锁 对 写 者 更 有 利 。 只 要 没有 其 他 写 者 ， 写 锁 总 是 能 够 被 成 功 获 得 。 读 者 不 
会 影响 写 锁 ， 这 点 和 读 - 写 自 旋 锁 及 信和 号 量 一 样 。 另 外 ， 挂 起 的 写 者 会 不 断 地 使 得 读 操作 循环 
(前 一 个 例子 ;)， 直 到 不 再 有 任何 写 者 持 有 锁 为 止 。 

Seq 锁 在 你 遇 到 如 下 需求 时 将 是 最 理想 的 选择 : 
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* 你 的 数据 存在 很 多 读者 。 

* 你 的 数据 写 者 很 少 。 

* 虽然 写 者 很 少 ， 但 是 你 希望 写 优 先 于 读 ， 而 且 不 允许 读者 让 写 者 饥饿 。 

* 你 的 数据 很 简单 ， 如 简单 结构 ， 甚 至 是 简单 的 整 型 一 一 在 某 些 场合 ， 你 是 不 能 使 用 原子 

量 的 。 

使 用 seq 锁 中 最 有 说 服 力 的 是 jifies。 该 变量 存储 了 Linux 机 兹 启动 到 当前 的 时 间 (参见 第 
11 章 。Jiffies 是 使 用 一 个 64 位 的 变量 ， 记 录 了 自 系 统 启动 以 来 的 时 钟 节拍 累加 数 。 对 于 那些 能 
自动 读 取 全 部 64 位 jiffies_64 变量 的 机 器 来 说 ， 需 要 用 get_jiffies_640 方法 完成 ， 而 该 方法 的 实 
现 就 是 用 了 seq 锁 : 

u64 get jiffies 64(void) 

{ 


unsigned long seq; 
U64 rets 


do 1{ 
Seq = read seqbegin(&xtime lock); 
ret = jiffies 64; 
} while (read seqretry(&xtime lock, seq)); 
return ret; 


} 
定时 器 中 断 会 更 新 ji 全 es 的 值 ， 此 刻 ， 也 需要 使 用 seq 锁 变 量 : 


Write seqlock (&xtime lock); 

jiffies 64 += 1; 

Write sequnlock {Extime lock)}); 

若 要 进一步 了 解 jiffies 和 内 核 时 间 管 理 , 请 看 第 11 章 和 内 核 源码 树 中 的 kerneVtimer.c 与 


kermel/time/tick-common.c 文件 。 


10.10 ”禁止 抢占 


由 于 内 核 是 抢占 性 的 ， 内 核 中 的 进程 在 任何 时 刻 都 可 能 停 下 来 以 便 另 一 个 具有 更 高 优先 权 
的 进程 运行 。 这 意味 着 一 个 任务 与 被 抢占 的 任务 可 能 会 在 同一 个 临界 区 内 运行 。 为 了 避免 这 种 情 
况 ， 内 核 抢占 代码 使 用 自 旋 锁 作 为 非 抢占 区 域 的 标记 。 如 果 一 个 自 旋 锁 被 持 有 ， 内 核 便 不 能 进行 
抢占 。 因 为 内 核 抢 占 和 SMP 面 对 相同 的 并 发 问题 ， 并 且 内 核 已 经 是 SMP 安全 的 (SMP-safe)， 
所 以 ， 这 种 简单 的 变化 使 得 内 核 也 是 抢占 安全 的 preempt-safe)。 

或 许 这 就 是 我 们 希望 的 。 实 际 中 ， 某 些 情况 并 不 需要 自 旋 锁 ， 但 是 仍然 需要 关闭 内 核 抢占 。 
最 频繁 出 现 的 情况 就 是 每 个 处 理 器 上 的 数据 。 如 果 数 据 对 每 个 处 理 器 是 唯一 的 ， 那 么 ， 这 样 的 数 
据 可 能 就 不 需要 使 用 锁 来 保护 ， 因 为 数据 只 能 被 一 个 处 理 器 访问 。 如 果 自 旋 锁 没有 被 持 有 ， 内 核 
又 是 抢占 式 的 ， 那 么 一 个 新 亩 度 的 任务 就 可 能 访问 同一 个 变量 ， 如 下 所 示 : 


任务 A 对 每 个 处 理 器 中 未 被 镇 保护 的 变量 foo 进行 操作 
尾 务 A 被 抢占 
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任务 B 被 调度 

任务 B 操作 变量 foo 

性 务 B 完成 

任务 A 被 调 座 

任务 A 继续 操作 变量 foc 

这 样 ， 即 使 这 是 一 个 单 处 理 器 计算 机 ， 变 量 foo 也 会 被 多 个 进程 以 伪 并 发 的 方式 访问 。 通 
常 ， 这 个 变量 会 请 求 得 到 一 个 自 旋 锁 (防止 多 处 理 器 机 器 上 的 真 并 发 )。 但 是 如 果 这 是 每 个 处 理 
跨 上 独立 的 变量 ， 可 能 就 不 需要 锁 。 

为 了 解决 这 个 问题 ， 可 以 通过 preempt_disable( 禁止 内 核 抢占 。 这 是 一 个 可 以 嵌 套 调用 
的 国 数 ， 可 以 调用 任意 次 。 每 次 调用 都 必须 有 一 个 相应 的 preempt_enable0 调用 。 当 最 后 一 次 
preempt_enable() 被 调用 后 ， 内 核 抢占 才 重 新 启用 。 例 如 : 


preempt 可 并 日 ab1ef) ; 

/* 抢占 被 禁止 . . .*V/ 

preempt enablet().; 
”抢占 计数 存放 着 被 持 有 锁 的 数量 和 preempt_disable( 的 调用 次 数 ， 如 果 计 数 是 0， 那 么 内 核 
可 以 进行 抢占 ; 如 果 为 1 或 更 大 的 值 ， 那 么 ， 内 核 就 不 会 进行 抢占 。 这 个 计数 非常 有 用 一 一 它 是 
一 种 对 原子 操作 和 睡眠 很 有 效 的 调试 方法 。 消 数 preempt_count() 返回 这 个 值 。 表 10-11 列 出 了 内 
核 抢占 相关 的 国 数 。 


表 10-11 内核 抢占 的 相关 函数 


国 数 描 述 
preempt_disable() 增加 抢占 计数 值 ， 从 而 禁止 内 核 抢占 
减少 抢占 计数 ， 并 当 读 值 降 为 0 时 检查 和 执行 被 挂 起 的 
preempt enable() 需 调 座 的 任务 
preempt_enable no_resched() 激活 内 棱 抢 占 但 不 再 检查 任何 被 挂 起 的 需 调 度 任 务 
preempt count() 返回 抢占 计数 


为 了 用 更 简洁 的 方法 解决 每 个 处 理 串 上 的 数据 访问 问题 ， 可 以 通过 get_cpu0 获得 处 理 器 编 
号 (假定 是 用 这 种 编号 来 对 每 个 处 理 器 的 数据 进行 索引 的 )。 这 个 函数 在 返回 当前 处 理 器 号 前 首 
先 会 关闭 内 核 抢占 。 

jnt cpu ; 

/* 毯 止 内 核 抢占 ， 并 将 CPU 设置 为 当前 处 理 器 */ 

cpu= get cpu(); 

/* 对 每 个 处 理 器 的 数据 进行 操作 .. .*/ 

/* 再 给 于 内 村 抢占 性 ，“CPU” 可 改变 故 它 不 再 有 效 */ 

Eut cup{}); 


10.11 顺序 和 屏障 


当 处 理 多 处 理 器 之 间或 硬件 设备 之 间 的 同步 问题 时 ， 有 时 需要 在 你 的 程序 代码 中 以 指定 的 顺 
序 发 出 读 内 存 〈 读 人 ) 和 写 内 存 〈 存 储 ) 指令 。 在 和 硬件 交互 时 ， 时 常 需要 确保 一 个 给 定 的 读 操 
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作 发 生 在 其 他 读 或 写 操作 之 前 。 另 外 ， 在 多 处 理 器 上 ， 可 能 需要 按 写 数据 的 顺序 读数 据 (通常 确 
保 后 来 以 同样 的 顺序 进行 读 取 )。 但 是 编译 器 和 处 理 器 为 了 提高 效率 ， 可 能 对 读 和 写 重新 排序 9， 
这 样 无 疑 使 同 题 复杂 化 了 。 幸 好， 所 有 可 能 重新 排序 和 写 的 处 理 器 提供 了 机 器 指令 来 确保 顺序 要 
求 。 同 样 也 可 以 指示 编译 器 不 要 对 给 定点 周围 的 指令 序列 进行 重新 排序 。 这 些 确 保 顺序 的 指令 称 
作 屏 障 Cbarriers)。 

基本 上 ， 在 某 些 处 理 器 上 存在 以 下 代码 : 


有 可 能 会 在 a 中 存放 新 值 之 前 就 在 b 中 存放 新 值 。 

编译 器 和 处 理 器 都 看 不 出 a 和 bb 之 间 的 关系 。 编 译 器 会 在 编译 时 按 这 种 顺序 编译 ， 这 种 顺序 
会 是 静态 的 ， 编 译 的 目标 代码 就 只 把 a 放 在 b 之 前 。 但 是 ， 处 理 器 会 重新 动态 排序 ， 因 为 处 理 器 
在 执行 指令 期 间 ， 会 在 取 指 令 和 分 派 时 ， 把 表面 上 看 似 无 关 的 指令 按 自 认为 最 好 的 顺序 排列 。 大 
多 数 情 况 下 ， 这 样 的 排序 是 最 佳 的 ， 因 为 a 和 bb 之 间 没 有 明显 的 关系 。 尽 管 有 些 时 候 程 序 员 知道 
什么 是 最 好 的 顺序 。 

尽管 前 面 的 例子 可 能 被 重新 排序 ， 但 是 处 理 器 和 编译 器 绝 不 会 对 下 面 的 代码 重新 排序 : 


避 = 1; 

b= a; 

此 处 a 和 bb 均 为 全 局 变量 ， 因 为 a 与 b 之 间 有 明确 的 数据 依赖 关系 。 

但 是 不 管 是 编译 器 还 是 处 理 器 都 不 知道 其 他 上 下 文中 的 相关 代码 。 偶 然 情况 下 ， 有 必要 让 
写 操作 被 其 他 代码 识别 ， 也 让 所 期 望 的 指定 顺序 之 外 的 代码 识别 。 这 种 情况 常常 发 生 在 硬件 设备 
上 ， 但 是 在 多 处 理 器 机 器 上 也 很 常见 。 

rmb() 方法 提供 了 一 个 “ 读 ” 内 存 屏 障 ， 它 确保 跨越 rnb0 的 载 人 动作 不 会 发 生 重 排序 。 也 
就 是 说 ， 在 rmb0 之 前 的 载 人 操作 不 会 被 重新 排 在 该 调用 之 后 ， 同 理 ， 在 rmb0 之 后 的 载 入 操作 
不 会 被 重新 排 在 该 调用 之 前 。 

wmb() 方法 提供 了 一 个 “ 写 ” 内 存 屏 障 ， 这 个 函数 的 功能 和 rmb() 类 似 ， 区 别 仅 仅 是 它 是 针 
对 存储 而 非 载 人 一 一 它 确保 跨越 屏障 的 存储 不 发 生 重 排序 。 

mb() 方法 既 提 供 了 读 屏 障 也 提供 了 写 屏 障 。 载 和 人 和 存储 动作 都 不 会 跨越 屏障 重新 排序 。 这 
是 因为 一 条 单独 的 指令 (通常 和 rmb() 使 用 同一 个 指令 ) 既 可 以 提供 载 人 屏障 ， 也 可 以 提供 存储 
屏障 。 

read_barrier_depends() 是 rmb0 的 变种 ， 它 提供 了 一 个 读 屏障 ， 但 是 仅仅 是 针对 后 续 读 操作 
所 依靠 的 那些 载 人 。 因 为 屏障 后 的 读 操 作 依 赖 于 屏障 前 的 读 操 作 ， 因 此 ， 该 屏障 确保 屏障 前 的 
读 操 作 在 屏障 后 的 读 操作 之 前 完成 。 明 白 了 吗 ? 基本 上 说 ， 该 函数 设置 一 个 读 屏障 ， 如 rmb0)， 
但 是 只 针对 特定 的 读 一 一 也 就 是 那些 相互 依赖 的 读 操 作 。 在 有 些 体系 结构 上 ，read_barrier_ 
depends0 比 rmb() 执行 得 快 ， 因 为 它 仅仅 是 个 空 操作 ， 实 际 并 不 需要 。 








日 、 虽 然 Intel x86 处 理 器 不 会 对 写 进行 重新 排序 ， 也 就 古 说 ， 它 不 进行 打 乱 顺序 的 存储 ， 但 是 其 他 处 理 器 会 这 么 做 。 
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看 看 使 用 了 mbO 和 rmb() 的 一 个 例子 ， 其 中 a 的 初始 值 是 1，b 的 初始 值 是 2。 


线程 1 线程 2 
忆 一 3; 
mb () ; = 
b= 4; = 
一 rmP(1) ; 
一 dd = a; 


如 果 不 使 用 内 存 屏 障 ， 在 茶 些 处 理 器 上 ，c 可 能 接收 了 b 的 新 值 ， 而 d 接收 了 a 原来 的 值 。 
比如 可 能 等 于 4( 正 是 我 们 希望 的 )， 然 而 d 可 能 等 于 1 (不 是 我 们 希望 的 )。 使 用 mb0O 能 确保 
a 和 bb 按照 预定 的 顺序 写 入 ， 而 rmb0 确保 c 和 d 按照 预定 的 顺序 读 取 。 

这 种 重 排序 的 发 生 是 因为 现代 处 理 器 为 了 优化 其 传送 管道 (pipeline )， 打 乱 了 分 派 
和 提交 指令 的 顺序 。 如 果 上 例 中 读 人 a、b 时 的 顺序 被 打 乱 的 话 ， 又 会 发 生 什 么 情况 呢 ? 
rmb() 或 wmb() 函数 相当 于 指令 ， 它 们 告诉 处 理 器 在 继续 执行 前 提交 所 有 尚未 处 理 的 载 人 
或 存储 指令 。 

看 一 个 类 似 的 例子 ， 但 是 其 中 一 个 线程 用 read barrier depends() 代替 了 rmbO。 例 子 中 a 的 
初始 值 是 1,. b 是 2，p 是 及 b。 


线程 1 线程 2 

a = 3 二 

mb{); = 

pb = &a; PP = pp; 

Es read barrier depends{); 
二 b = *pp; 


再 一 次 声明 ， 如 果 没 有 内 存 屏 障 ， 有 可 能 在 pp 被 设置 成 p 前 ，b 就 被 设置 为 pp 了 。 由 于 载 
人 *pp 依靠 载 人 p， 所 以 read_barrier_depends() 提供 了 一 个 有 效 的 屏障 。 虽 然 使 用 rmb() 同样 有 
效 ， 但 是 因为 读 是 数据 相关 的 ， 所 以 我 们 使 用 read_barrier_depends() 可 能 更 快 。 注 意 ， 不 管 在 哪 
种 情况 下 ， 左 边 的 线程 都 需要 mb() 操作 来 确保 预定 的 载 人 或 存储 顺序 。 

宏 smp rmb0O、smp wmb0O、smp mbO 和 smp read barrier depends() 提供 了 一 个 有 用 的 优化 。 
在 SMP 内 核 中 它们 被 定义 成 常用 的 内 存 屏 障 ， 而 在 单 处 理 机 内 核 中 ， 它 们 被 定义 成 编译 右 的 屏 
障 。 对 于 SMP 系统 ， 在 有 顺序 限定 要 求 时 ， 可 以 使 用 SMP 的 变种 。 

barrier() 方法 可 以 防止 编译 器 跨 屏 障 对 载 人 或 存储 操作 进行 优化 。 编 译 器 不 会 重新 组 
组 存储 或 载 人 操作 ， 而 防止 改变 C 代码 的 效果 和 现 有 数据 的 依赖 关系 。 但 是 ， 它 不 知道 在 当 
前 上 下 文 之 外 会 发 生 什 么 事 。 例 如 ， 编 译 器 不 可 能 知道 有 中 断 发 生 ， 这 个 中 断 有 可 能 在 读 取 
正在 被 写 人 的 数据 。 这 时 就 要 求 存 储 操作 发 生 在 读 取 操作 前 。 前 面 讨论 的 内 存 屏 障 可 以 完成 
编译 妖 屏 障 的 功能 ， 但 是 编译 器 屏障 要 比 内 存 屏障 轻 量 〈 它 实际 上 是 轻快 的 ) 得 多 。 实 际 上 ， 
编译 器 屏障 几乎 是 空闲 的 ， 因 为 它 只 防止 编译 器 可 能 重 排 指令 。 

表 10-12 给 出 了 内 核 中 所 有 体系 结构 提供 的 完整 的 内 存 和 编译 器 屏障 方法 。 
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表 10-12 内 存 和 编译 器 屏障 方法 


屏 障 描 述 
rmb({) 阻止 跨越 屏障 的 载 人 动作 发 生 重 排序 
read_barrier_depends() 阻止 跨越 屏障 的 具有 数据 依赖 关系 的 载 人 动作 重 排序 
wmb() 阻止 跨越 屏障 的 存储 动作 发 生 重 排序 
mb() 阻止 跨越 屏障 的 载 和 人 和 存储 动作 重新 排序 
smp_rmb!() 在 SMP 上 提供 rmb( 功能 ， 在 UP 上 提供 barrier0 功能 
smp_read_barrier_ depends0 在 SMP 上 提供 read_barrier_depends0 功能 ， 在 UP 上 提供 barrier( 功能 
smp_wmb 在 SMP 上 提供 wmbO 功能 ， 在 UP 上 提供 barrier0 功能 
smp_mb!() 在 SMP 上 提供 mb() 功能 ， 在 UP 上 提供 barrier0 功能 
barrier() 阻止 编译 器 跨 屏 障 对 载 人 或 存储 操作 进行 优化 


注意 ， 对 于 不 同体 系 结构 ， 屏 障 的 实际 效果 差别 很 大 。 例 如 ， 如 果 一 个 体系 结构 不 执行 打 
乱 存 储 《〈 如 Intel x86 心 厂 就 不 会 )， 那 么 wmb() 就 什么 也 不 做 。 但 应 该 为 最 坏 的 情况 《〈《 即 排序 
能 力 最 弱 的 处 理 器 ) 使 用 恰当 的 内 存 屏 藤 ， 这 样 代 码 才能 在 编译 时 执行 针对 体系 结构 的 优化 。 


10.12 小结 


本 章 应 用 了 第 9 章 的 概念 和 原理 ， 这 使 得 你 能 理解 Linux 内 核 用 于 同步 和 并 发 的 具体 方法 。 
我 们 一 开始 先 讲述 了 最 简单 的 确保 同步 的 方法 一 一 原子 操作 ， 然 后 考察 了 自 旋 锁 ， 这 是 内 核 中 最 
普通 的 锁 ， 它 提供 了 轻 量 级 单独 持 有 者 的 锁 ， 即 争 用 时 忙 等 。 我 们 接着 还 讨论 了 信号 量 〈( 这 是 一 
种 睡眠 锁 ) 以 及 更 通用 的 衍生 锁 一 一 mutex。 至 于 专用 的 加 锁 原 语 像 完成 变量 、seq 锁 ， 只 是 稍稍 
提 及 。 我 们 取笑 BLK， 考 察 了 禁止 抢占 ， 并 理解 了 屏障 ， 它 曾 难 以 驾驭 。 

以 第 9 章 和 第 10 章 的 同步 方法 为 基础 ， 就 可 以 编写 避免 竞争 条 件 、 确 保 正 确 同步 ， 而 且 能 
在 多 处 理 器 上 安全 运行 的 内 核 代码 了 。 





第 (了 T 章 
定时 器 和 时 间 管 理 


时 间 管 理 在 内 核 中 占有 非常 重要 的 地 位 。 相 对 于 事件 驱动 人 而 言 ， 内 核 中 有 大 量 的 函数 都 是 
基于 时 间 驱 动 的 。 其 中 有 些 函 数 是 周期 执行 的 ， 像 对 调度 程序 中 的 运行 队列 进行 平衡 调整 或 对 屏 
幕 进行 刷新 这 样 的 函数 ， 都 需要 定期 执行 ， 比 如 说 ， 每 秒 执行 100 次 ; 而 另外 一 些 函数 ， 比 如 需 
要 推 后 执行 的 磁盘 IO 操作 等 ， 则 需要 等 待 一 个 相对 时 间 后 才 运 行 一 一 比如 说 ， 内 核 会 在 500ms 
后 再 执行 某 个 任务 。 除 了 上 述 两 种 函数 需要 内 核 提 供 时 间 外 ， 内 核 还 必须 管理 系统 的 运行 时 间 以 
及 当前 日 期 和 时 间 。 

请 注意 相对 时 间 和 绝对 时 间 之 间 的 差别 。 如 果 某 个 事件 在 5s 后 被 调度 执行 ， 那 么 系统 所 需 
要 的 不 是 绝对 时 间 ， 而 是 相对 时 间 〈 比 如， 相对 现在 起 5s 后 ) ; 相反 ， 如 果 要 求 管理 当前 日 期 和 
当前 时 间 ， 则 内 核 不 但 要 计算 流 乾 的 时 间 而 且 还 要 计算 绝对 时 间 。 所 以 这 两 种 时 间 概 念 对 内 核 时 
间 管 理 来 说 都 至 关 重 要 。 

为 外 ， 还 请 注意 周期 性 产生 的 事件 与 内 核 油 度 程序 推迟 到 荣 个 确定 点 执行 的 事件 之 间 的 差 
别 。 周 期 性 产生 的 事件 一 一 比如 每 10ms 一 次 一 一 都 是 由 系统 定时 器 驱动 的 。 系 统 定时 器 是 一 种 
可 编程 硬件 芯片 ， 它 能 以 固定 频率 产生 中 断 。 访 中断 就 是 所 谓 的 定时 器 中 断 ， 它 所 对 应 的 中 断 处 
理 程序 负责 更 新 系统 时 间 ， 也 负责 执行 需要 周期 性 运行 的 任务 。 系 统 定 时 器 和 时 钟 中 断 处 理 程序 
是 Linux 系统 内 核 管理 机 制 中 的 中 枢 ， 本 章 将 着 重 讨论 它们 。 

本 章 关 注 的 男 外 一 个 焦点 是 动态 定时 器 一 一 一 种 用 来 推迟 执行 程序 的 工具 。 比 如 说 ， 如 果 软 
驱 马 达 在 一 定时 间 内 都 未 活动 ， 那 么 软盘 驱动 程序 会 使 用 动态 定时 器 关闭 软驱 马达 。 内 核 可 以 动 
态 创 建 或 撤销 动态 定时 器 。 本 章 将 介绍 动态 定时 器 在 内 核 中 的 实现 ， 同 时 给 出 在 内 核 代 码 中 可 供 
使 用 的 定时 更 接口 。 


11.1 内 核 中 的 时 间 概 念 


时 间 概 念 对 计算 机 来 说 有 些 模糊 ， 事 实 上 内 核 必 须 在 硬件 的 帮助 下 才能 计算 和 管理 时 间 。 
硬件 为 内 核 提供 了 一 个 系统 定时 器 用 以 计算 流逝 的 时 间 ， 该 时钟 在 内 核 中 可 看 成 是 一 个 电子 时 
间 资 源 ， 比 如 数字 时 钟 或 处 理 器 频率 等 。 系 统 定 时 器 以 某 种 频率 自行 触发 (经 常 被 称 为 击 中 
(hitting》 或 射 中 popping))〉 时钟 中 断 ， 该 频率 可 以 通过 编程 预定 ， 称 作 市 拍 率 (tick rate)。 当 
时 钟 中 断 发 生 时 ， 内 核 就 通过 一 种 特殊 的 中 断 处 理 程序 对 其 进行 处 理 。 

因为 预 编 的 节拍 率 对 内 核 来 说 是 可 知 的 ， 所 以 内 核 知道 连续 两 次 时 钟 中 断 的 间隔 时 间 。 这 


怠 更 准确 地 讲 ， 时 间 驱 动 事件 也 属于 事件 驱动 的 一 种 一 一 时 间 的 流逝 本 身 就 是 一 种 事件 。 然 而 ， 由 于 时 间 驱 动 
的 频率 非常 高 ， 且 对 内 核 而 言 至 关 重 要 ， 因 此 ， 本 章 中 我 们 仅仅 分 析 时 间 艳 动 事件 。 
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个 间隔 时 间 就 称 为 节拍 (tick)， 它 等 于 节拍 率 分 之 一 1/ (tick rate)) 秒 。 正 如 你 所 看 到 的 ， 内 
核 就 是 靠 这 种 已 知 的 时 钟 中 断 间 隔 来 计算 墙 上 时 间 和 系统 运行 时 间 的 。 墙 上 时 间 (也 就 是 实际 时 
同 〉 对 用 户 空 间 的 应 用 程序 来 说 是 最 重要 的 。 内 核 通过 控制 时 钟 中 断 维护 实际 时 间 ， 另 外 内 核 也 
为 用 户 空间 提供 了 一 组 系统 调用 以 获取 实际 日 期 和 实际 时 间 。 系统 运行 时 间 ( 自 系统 启动 开始 所 
经 的 时 间 ) 对 用 户 空间 和 内 核 都 很 有 用 ， 因 为 许多 程序 都 必须 清楚 流逝 的 时 间 。 通 过 两 次 〈 现 在 
和 以 后 ) 读 取 运 行 时 间 再 计算 它们 的 差 ， 就 可 以 得 到 相对 的 流逝 的 时 间 了 。 

* 时 钟 中 断 对 于 管理 操作 系统 尤为 重要 ， 大 量 内 核 函 数 的 生命 周期 都 离 不 开 流 逝 的 时 间 的 控 

制 。 下 面 给 出 一 些 利用 时 间 中 断 周 期 执行 的 工作 : 

“ 更 新 系统 运行 时 间 。 

"更 新 实际 时 间 。 

在 smp 系统 上， 均衡 调 度 程序 中 各 处 理 器 上 的 运行 队列 。 如 果 运 行 队列 负载 不 均衡 的 话 

尽量 使 它们 均衡 (在 第 4 章 中 讨论 过 )。 

* 检查 当前 进程 是 否 用 尽 了 自己 的 时 间 片 。 如 果 用 尽 ， 就 重新 进行 调度 (在 第 4 章 中 讨论 过 )。 

* 运行 超时 的 动态 定时 器 。 

“更 新 资源 消耗 和 处 理 器 时 间 的 统计 值 。 


这 其 中 有 些 工 作 在 每 次 的 了 时钟 中 断 处 理 程 序 中 都 要 被 处 理 一 一 也 就 是 说 ， 这 些 工作 随时 钟 的 
频率 反复 运行 。 另 一 些 也 是 周期 性 地 执行 ， 但 只 需要 每 n 次 时 钟 中 断 运 行 一 次 ， 也 就 是 说 ， 这 些 
尔 数 在 替 计 了 一 定数 量 的 时 钟 布 拍 数 时 才 被 执行 。 在 “定时 嚣 中断 处 理 程序 ”这 一 小 节 中 ， 我 们 
将 详细 讨论 时 钟 中 断 处 理 程序 。 


11.2 节拍 率 : HZ 


系统 定时 普 频 率 〈 节 拍 率 ) 是 通过 静态 预 处 理 定义 的 ， 也 就 是 HZ (赫兹 )， 在 系统 启动 时 
按照 HZ 值 对 硬件 进行 设置 。 体 系 结构 不 同 ，HZ 的 值 也 不 同 ， 实 际 上， 对 于 某 些 体系 结构 来 说 ， 
甚至 是 机 器 不 同 ， 它 的 值 都 会 不 一 样 。 

内 核 在 <asm/param.h> 文件 中 定义 了 这 个 值 。 市 拍 率 有 一 个 HZ 频率， 一 个 周期 为 MHZ 
秒 。 例 如 ，x86 体系 结构 中 ， 系 统 定时 器 频率 默认 值 为 100。 因 此 ，x86 上 时 钟 中 断 的 频率 就 为 
100HZ， 也 就 是 说 在 386 处 理 上 的 每 秒 钟 时 钟 中 断 100 次 〈 百 分 之 一 种 ， 即 每 10ms 产生 一 次 )。 
但 其 他 体系 结构 的 节拍 率 为 230 和 1000， 分 别 对 应 4ms 和 lms。 表 11-1 给 出 了 各 种 体系 结构 与 
各 自 对 应 节拍 率 的 完整 列表 。 

编写 内 核 代码 时 ， 不 要 认为 HZ 值 是 一 个 固定 不 变 的 值 。 这 不 是 一 个 常见 的 错误 ， 因 为 大 多 
数 体系 结 构 的 市 拍 率 都 是 可 调 的 。 但 是 在 过 去 ， 只 有 Alpha 一 种 机 型 的 节拍 率 不 等 于 100， 所 以 
很 多 本 该 使 用 HZ 的 地 方 ， 都 错误 地 在 代码 中 直接 硬 编码 (hard-code〉 成 100 这 个 值 。 舟 后 ， 我 
们 会 给 出 内 核 代码 中 使 用 HZ 的 例子 。 

正如 我 们 所 看 到 的 ， 时 钟 中 断 能 处 理 许多 内 核 任务 ,所 以 它 对 内 核 来 说 极为 重要 。 事 实 上 ， 
内 核 中 的 全 部 时 间 概念 都 来 源 于 周期 运行 的 系统 时 钟 。 所 以 选择 一 个 合适 的 频率 ， 就 如 同 在 人 际 
交往 中 建立 和 谐 关 系 一 样 ， 必 须 取 得 各 方面 的 折 中 。 
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表 11-1 时 钟 中 断 频 率 


体系 结构 频率 /HZ 
Alpha 1024 
和 rm 100 
avr32 100 
Blackfin 100 
Cris 100 
h8300 100 
ia6d 1 024 
m32r 100 
m6Bk 100 
m68knommyu 4S0，100 或 1000 
Microblaze 100 
Mips 100 
mnl0300 100 
parisc 100 
pOWerpe 100 
Score 100 
s390 100 
sh 100 
aparc 100 
Um 100 


11.2.1 理想 的 HZ 值 


自 Linux 问世 以 来 ，i386 体系 结构 中 时 钟 中 断 频率 就 设 定 为 100HZ， 但 是 在 2.5 开发 版 内 核 
中 ， 中 断 频 率 被 提高 到 1000HZ。 当 然 ， 是 否 应 该 提高 频率 (如 同 其 他 绝 大 多 数 事情 一 样 ) 是 饱 
受 和 争议 的 。 由 于 内 核 中 众多 子 系 统 都 必须 依赖 时 钟 中 断 工 作 ， 所 以 改变 中 断 频率 必然 会 对 整个 系 
统 造成 很 大 的 冲击 。 但 是 ， 任 何事 情 总 是 有 两 面 性 的 ， 我 们 接 下 来 就 来 分 析 系 统 定时 器 使 用 高 频 
率 与 使 用 低频 率 各 有 哪些 优 沙 。 

提高 节拍 率 意味 着 时 钟 中 断 产 生得 更 加 频繁 ， 所 以 中 断 处 理 程序 也 会 更 频繁 地 执行 。 如 此 一 
来 会 给 整个 系统 带 来 如 下 好 处 : 

。 更 高 的 时 钟 中 断 解析 度 (resolution) 可 提高 时 间 驱 动 事 件 的 解析 讼 。 

“ 提高 了 时 间 驱 动 事件 的 准确 度 (accuracy )。 

提高 节拍 率 等 同 于 提高 中 断 解析 度 。 比 如 HZ=100 的 时 钟 的 执行 粒度 为 1 0ms， 即 系统 中 的 
周期 事件 最 快 为 每 10ms 运行 一 次 ， 而 不 可 能 有 更 高 的 精度 9， 但 是 当 HZ=1000 时 ， 解 析 度 就 为 


日 ”这 里 所 说 的 是 计算 机 意义 上 的 精度 ， 而 不 是 科学 意义 上 的 精度 。 科 学 意义 上 的 精度 是 统计 反复 性 的 量度 ， 在 
计算 机 领域 上 内， 精度 是 表示 一 个 值 的 有 效 位 的 个 数 。 
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lms 一 一 精细 了 10 倍 。 虽 然 内 核 可 以 提供 频 度 为 Ims 的 时 钟 ， 但 是 并 没有 证 据 显 示 对 系统 中 所 
有 程序 而 言 ， 频 率 为 1000Hz 的 时 钟 率 相 比 频率 为 100Hz 的 时 钟 都 更 合适 。 

另外 ， 提 高 解析 度 的 同时 也 提高 了 准确 度 。 假 定 内 核 在 某 个 随机 时 刻 触 发 定时 器 ， 而 它 可 能 
在 任何 时 间 超 时 ， 但 由 于 只 有 在 时 钟 中 断 到 来 时 才 可 能 执行 它 ， 所 以 平均 误差 大 约 为 半 个 时 钟 中 
断 周期 。 比 如 说 ， 如 果 时 钟 周期 为 HZ=100， 那 么 事件 平均 在 设 定时 刻 的 +/ 一 5ms 内 发 生 ， 所 以 
平均 误差 为 5ms。 如 果 HZ=1000， 那 么 平均 误差 可 降低 到 0.5ms 一 一 惟 确 度 提高 了 10 倍 。 


11.2.2 ”高 HZ 的 优势 


更 高 的 时 钟 中 断 频 度 和 更 高 的 准确 度 又 会 带 来 如 下 优点 : 

* 内 核定 时 器 能 够 以 更 高 的 频 度 和 更 高 的 准确 度 〈 它 带 来 了 大 量 的 好 处 ， 下 一 条 便 是 其 中 之 

一 ) 运行 。 

。 依赖 定 时 值 执行 的 系统 调用 ， 比 如 poll( 和 select0， 能 够 以 更 高 的 精度 运行 。 

“对 诸如 资源 消耗 和 系统 运行 时 间 等 的 测量 会 有 更 精细 的 解析 度 。 

“提高 进程 抢占 的 准确 度 。 

对 pollO 和 select0 超时 精度 的 提高 会 给 系统 性 能 带 来 极 大 的 好 处 。 提 高 精度 可 以 大 幅度 提 
高 系统 性 能 。 频 繁 使 用 上 述 两 种 系统 调用 的 应 用 程序 ， 往 往 在 等 待 时 钟 中 断 上 浪费 大 量 的 时 间 ， 
而 事实 上 ， 定 时 值 可 能 早 就 超时 了 。 回 忆 一 下 ， 平 均 误 差 〈 也 就 是 ， 可 能 浪费 的 时 间 ) 可 是 时 钟 
中 断 周 期 的 一 半 。 

更 高 的 准确 率 也 使 进程 抢占 更 准确 ， 同 时 还 会 加 快 调度 响应 时 间 。 第 4 章 中 提 到 过 ， 时 钟 中 
断 处 理 程序 负责 减少 当前 进程 的 时 间 片 计数 。 当 时 间 片 计数 跌 到 0 时 ， 而 又 设置 了 need_resched 
K 志 的 话 ， 内 核 便 立刻 重新 运行 调度 程序 。 假 定 有 一 个 正在 运行 的 进程 ， 它 的 时 间 片 只 剩 下 2ms 
了 ， 此 时 调度 程序 又 要 求 抢占 该 进程 ， 然 后 去 运行 另 一 个 新 进程 ; 然而 ， 该 抢占 行为 不 会 在 下 一 
个 时 钟 中 断 到 来 前 发 生 ， 也 就 是 说 ， 在 这 2ms 内 不 可 能 进行 抢占 。 实 际 上 ， 对 于 频率 为 100HZ 
的 时 钟 来 说 ， 最 坏 要 在 10ms 后 ， 当 下 一 个 时 钟 中 断 到 来 时 才能 进行 抢占 ， 所 以 新 进程 也 就 可 能 
要 比 要 求 的 晚 10ms 才能 执行 。 当 然 ， 进 程 之 间 也 是 平等 的 ， 因 为 所 有 的 进程 都 是 一 视 同仁 的 待 
遇 ， 调 度 起 来 都 不 是 很 准确 一 一 但 关键 不 在 于 此 。 问 题 在 于 由 于 耽误 了 抢占 ， 所 以 对 于 类 似 于 填充 
音频 缓冲 区 这 样 有 严格 时 间 要 求 的 任务 来 说 ， 结 果 是 无 法 接受 的 。 如 果 将 节拍 率 提 高 到 1000HZ， 在 
最 坏 情况 下 ， 也 能 将 调度 延误 时 间 降 低 到 lms， 而 在 平均 情况 下 ， 只 能 降 到 0.5ms 左右 。 


11.2.3 高 HZ 的 劣势 


现在 该 谈 谈 另 一 面 了 ， 提 高 节拍 率 会 产生 副作用 。 事 实 上 ， 把 布 拍 率 提高 到 1000HZ (其 至 
更 高 ) 会 带 来 一 个 大 问题 : 节拍 率 越 高 ， 意 味 着 时 钟 中 断 频 率 越 高 ， 也 就 意味 着 系统 负担 越 重 。 
因为 处 理 器 必须 花 时 间 来 执行 时 钟 中 断 处 理 程序 ， 所 以 节拍 率 越 高 ,中断 处 理 程序 占用 的 处 理 器 
的 时 间 越 多 。 这 样 不 但 减少 了 处 理 器 处 理 其 他 工作 的 时 间 ， 而 且 还 会 更 频繁 地 打 乱 处 理 器 高 速 组 
存 并 增加 耗 电 。 负 载 造 成 的 影响 值得 进一步 探讨 。 将 时 钟 频率 从 100HZ 提高 到 1000HZ 必然 会 
使 时 钟 中 断 的 负载 增加 10 倍 。 可 是 增加 前 的 系统 负载 又 是 多 少 呢 ? 基 后 的 结论 是 : 至 少 在 现代 
计算 机 系统 上 ， 时 钟 频率 为 1000HZ 不 会 导致 难以 接受 的 负担 ， 并 且 不 会 对 系统 性 能 造成 较 大 的 
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影响 。 尽 管 如 此 ， 在 2.6 版 内 核 中 还 是 允许 在 编译 内 核 时 选 定 不 同 的 HZ 值 。 


和 无 节拍 的 OS? 

“也 许 你 疑惑 操作 系统 是 否 一 定 要 有 固定 时 钟 。 尽 管 40 年 来 ， 几 乎 所 有 的 通用 操作 系统 

。 都 使 用 与 本 章 所 描述 的 系统 类 似 的 时 钟 中 断 ， 但 Linux 内 核 支 持 “ 无 节拍 操作 ”这 样 的 选项 。 

- 当 编 译 内 核 时 设置 了 CONFIG_HZ 配置 选项 ， 系 统 就 根据 这 个 选项 动态 调度 时 钟 中 断 。 并 不 

- 是 每 隔 固定 的 时 间 间 隔 〈 比 如 lms) 触发 时 钟 中 断 ， 而 是 按 需 动态 调度 和 重新 设置 。 如 果 下 

， 一 个 时 钟 频率 设置 为 3ms， 就 每 3ms 触发 一 次 时 钟 中 断 。 之 后 ， 如 果 50ms 内 都 无 事 可 做 ， 内 

“ 核 以 50ms 重新 调度 时 钟 中 断 。 

， ”减少 开销 总 是 受 欢 迎 的 ， 但 是 实质 性 受益 还 是 省 电 ， 特 别 是 在 系统 空闲 时 。 在 基于 节拍 

”的 标准 系统 中 ， 即 使 在 系统 空闲 期 间 ， 内 核 也 需要 为 时 钟 中 断 提供 服务 。 对 于 无 节拍 的 系统 
言 ， 空 闲 档期 不 会 被 不 必要 的 时 钟 中 断 所 打 断 ， 于 是 减少 了 系统 的 能 耗 。 且 不 论 空闲 期 是 

200ms 还 是 200 秒 ， 随 着 时 间 的 推移 ， 所 省 的 电 是 实 实在 在 的 。 


11.3 jiffies 


全 局 变量 jiffies 用 来 记录 自 系 统 启动 以 来 产生 的 节拍 的 总 数 。 启 动 时 ， 内 核 将 该 变量 初始 化 
为 0， 此后， 每 次 时 钟 中 断 处 理 程序 就 会 增加 该 变量 的 什 。 因 为 一 秒 内 时 钟 中 断 的 次 数 等 于 HZ， 
所 以 jifiies 一 秒 内 增加 的 值 也 就 为 HZ。 系统 运行 时 间 以 秒 为 单位 计算 ， 就 等 于 jifies/HZ。 实 际 
出 现 的 情况 可 能 稍微 复杂 些 : 内 核 给 jiffies 赋 一 个 特殊 的 初 值 ， 引 起 这 个 变量 不 断 地 溢出 ， 由 此 
捕捉 bug。 当 找到 实际 的 jiffies 值 后 ， 就 首先 把 这 个 “偏差 ” 减 去 。 
$ Jiffy 的 语源 
”术语 jifly 起 源 是 未 知 的 。 据 说 这 个 短语 起 源 于 18 世纪 的 英国 。 最 初 ，jiffy 所 指 含义 不 明 
、， 确 ， 但 简单 地 表示 时 间 周 期 
# 在 科学 应 用 中 ，jiffy 表示 各 种 时 间 间 隔 ， 通 常 指 10ms。 在 物理 中 ,jiffy 有 时 表示 光 传播 


” 某 一 特定 距离 大抵 1 英尺 ， 或 者 1 厘米 ， 或 者 跨越 1 个 核子 ) 所 花 的 时 间 。 


= 


在 计算 机 工程 中 ，jiffy 常常 是 两 次 连续 的 时 钟 周 期 之 间 的 时 间 。 在 电机 工程 中 ，jiffy 是 
5 完成 一 次 AC 交流 电 〉 周 期 的 时 间 。 在 美国 ， 这 是 1/60 种 。 
: 在 操作 系统 中 ， 尤 其 是 Unix 中 ，jiffy 是 两 次 连续 的 时 钟 节拍 之 间 的 时 间 。 历 史上 ， 这 是 


10ms。 但 是 ， 我 们 在 本 章 已 经 看 到 ，jiffy 在 Linux 中 已 经 有 所 变化 。 
jiffies 定义 于 文件 <linuxwjiffies.h> 中 : 


extern Unsigned long volatile Jiftfies; 


在 13.4 市 我 们 会 看 到 它 的 实际 定义 ， 它 看 起 来 有 所 特 殊 。 现 在 我 们 先 来 看 一 些 用 到 jiffies 
的 内 核 代 码 。 下 面 表达 式 将 以 秒 为 单位 的 时 间 转 化 为 jiffies : 


日 不 过 ， 因 为 体系 结构 和 NTP 相关 问题 ，HZ 的 值 并 不 是 随便 确定 的 ， 在 x86 上 ，100、500 和 1000 都 是 有 
效 的 值 。 
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(seconds * HE) 


相反 ， 下 面 表达 式 将 jiffies 转换 为 以 秒 为 单位 的 时 间 : 


(jiffies/HZ) 

比较 而 言 ， 内 核 中 将 秒 转换 为 jiffies 用 得 多 一 些 ， 比 如 代码 经 常 需要 设置 一 些 将 来 的 时 间 : 
unsigned long time stamp = jiffies; /se 现在 */ 

unsigned long next tick = jiffies+1; As 从 再 在 开始 1 个 节拍 */ 

unsigned long later = -jiffies+5*HSZ; 1* 从 现在 开始 5 种 */ 

unsigned long fraction = jiffies + HZ / 10; jw 从 现在 开始 1/10 种 */ 


把 时 钟 转化 为 种 经 常会 用 在 内 核 和 用 户 空间 进行 交互 的 时 候 ， 而 内 核 本 身 很 少 用 到 绝对 时 间 。 
注意 ，jifhes 类 型 为 无 符号 长 整 型 (unsigned long)， 用 其 他 任何 类 型 存放 它 都 不 正确 。 


11.3.1 jiffies 的 内 部 表示 


jifhes 变量 总 是 无 符号 长 整数 (unsigned long)， 因 此 ， 在 辽 位 体系 结构 上 是 32 位 ,在 好 位 体 
系 结构 上 是 64 位 。32 位 的 jifies 变量 ， 在 时 钟 频率 为 100HZ 的 情况 下 ，497 天 后 会 溢出 。 如 果 频 率 
为 1000HZ，49.7 天 后 就 会 溢出 。 而 如 果 使 用 64 位 的 jiffies 变量 ， 任 何人 都 别 指望 会 看 到 它 溢出 。 

由 于 性 能 与 历史 的 原因 ， 主 要 还 考 虚 到 与 现 有 内 核 代码 的 茹 容 性 ， 内 核 开发 者 希望 jiffie 依 
然 为 unsigned long。 有 一 些 巧 妙 的 思想 和 少数 神奇 的 链接 程序 扭转 了 这 一 局 面 。 

前 面 已 经 看 到 ，jiffies 定义 为 unsigned long : 


extern unsigned long volatile jiffies; 

第 二 个 变量 也 定义 在 <linuw/jiffies.h> 中 ; 

extern u64 jiffies 64; 

ld(1) 脚本 用 于 连接 主 内 核 映像 (在 x86 上 位 于 arch/x86/kemel/vmlinux.lds.S)， 然 后 用 
jiffies_64 变量 的 初 值 禾 盖 ji 人 hes 变量 : 

jiffies = jiffies 64; 

因此 , jiffies 取 整 个 64 位 jiffies_64 变量 的 低 32 位 。 代 码 可 以 完全 像 以 前 一 样 继 续 访 问 jiffies。 
因为 大 多 数 代码 只 不 过 使 用 ji 人 es 存放 流失 的 时 间 ， 因 此 ， 也 就 只 关心 低 32 人 位。 不过， 时间 管 理 
代码 使 用 整个 64 位 ， 以 此 来 避免 整个 64 位 的 溢出 。 图 11-1 呈现 了 jiffies 和 jiffies_64 的 划分 。 


jiffies_64 (在 64 位 机 器 上 的 ji 全 es 变量 ) 





在 32 位 机 器 上 的 jifies 变 量 
图 11-1 jiffies 和 jiffies_64 的 划分 
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访问 jiffies 的 代码 仅 会 读 取 jifies_64 的 低 32 位 。 通 过 get_jitties_ 640 函数 ， 就 可 以 读 取 整 
个 64 位 数值 号 。 但 是 这 种 需求 很 少 ， 多 数 代码 仍然 只 要 能 通过 jiffies 变量 读 取 低 32 位 就 够 了 。 

在 64 位 体系 结构 上 ，jiffies_64 和 jiffies 指 的 是 同一 个 变量 ， 代 码 既 可 以 直接 读 取 jiffies 也 
可 以 调用 get_jiffies_64() 函数 ， 它 们 的 作用 相同 。 


11.3.2 jiffies 的 回 绕 


和 任何 C 整 型 一 样 ， 当 jiffies 变量 的 值 超 过 它 的 最 大 存放 范围 后 就 会 发 生 溢 出 。 对 于 32 位 
无 符号 长 整 型 ， 最 大 取 值 为 2 一 1。 所 以 在 溢出 前 ， 定 时 器 节拍 计数 最 大 为 4294967295。 如 果 节 
拍 计数 达到 了 最 大 值 后 还 要 继续 增加 的 话 ， 它 的 值 会 回 绕 〈wrap around) 到 0。 

请 看 下 面 一 个 回 绕 的 例子 : 

unsigned long timeout = jiffies + Hz/2; +/* 0.5 种 后 超时 */ 

/* 执行 一 些 任务 ... */ 


/* 然后 查看 是 否 花 的 时 间 过 长 */ 
(七 meout>jitties) { 

/* 没有 超时 ， 很 好 ... */ 
lelse { 

1/* 超时 了 ， 发 生 错误 ...*/ 


上 面 这 一 小 段 代 码 是 希望 设置 一 个 准确 的 超时 时 间 一 一 本 例 中 从 现在 开始 计时 ， 时 间 为 半 
秒 。 然 后 再 去 处 理 一 些 工作 ， 比 如 探测 硬件 然后 等 待 它 的 响应 。 如 果 处 理 这 些 工 作 的 时 间 超 过 了 
设 定 的 超时 时 间 ， 代 码 就 要 做 相应 的 出 错 处 理 。 

这 里 有 很 多 种 发 生 潜 出 的 可 能 ， 我 们 只 分 析 其 中 之 一 : 考虑 如 果 在 设置 完 timeout 变量 后 ， 
jiffies 重新 回 经 为 0 将 会 发 生 什么 ?此 时 ， 第 一 个 判断 会 返回 假 ， 因 为 尽管 实际 上 用 去 的 时 间 可 
能 比 timeout 值 要 大 ， 但 是 由 于 溢出 后 回 绕 为 0， 所 以 ji 人 tes 这 时 肯定 会 小 于 timeout 的 值 。jiffhies 
本 该 是 个 非常 大 的 数值 一 一 大 于 timeout， 但 是 因为 超过 了 它 的 最 大 值 ， 所 以 反而 变 成 了 一 个 很 
小 的 值 一 一 也 许 仅仅 只 有 几 个 市 拍 计数 。 由 于 发 生 了 回 绕 ， 所 以 过 判断 语句 的 结果 刚好 相反 。 

六 好 ， 内 核 提供 了 四 个 宏 来 帮助 比较 节拍 计数 ， 它 们 能 正确 地 处 理 节拍 计数 回 绕 情况 。 这 
些 宏 定义 在 文件 <linuxjjiffies.h> 中 ,这 里 列 出 的 宏 是 简化 版 : 


#define time after (unknown, known) ({(long) 【known - {long}) (unknown) <0) 
#define time before(unknown,known) ((long) (unknown) - {long) (known} <0) 
#define time after egl(lunknown,Fknown) ((long) (unknown) - {long) (known) »>=0) 
#define time before eg (unknown,known} (tlong) (known) - (long) (unknown) >=0) 


其 中 unkown 参数 通常 是 jifies，known 参数 是 需要 对 比 的 值 。 

宏 time_after(unknown,known)， 当 时 间 unknown 超过 指定 的 known 时 ， 返 回 真 ， 否 则 返回 
假 ; 宏 time_before(unknown,known)， 当 时 间 unknow 没 超过 指定 的 know 上 时， 返回 真 ， 否 则 返回 
假 。 后面 两 个 宏 作 用 和 前 面 两 个 宏一 样 ， 只 有 当 两 个 参数 相等 时 ， 它 们 才 返 回 真 。 


昌 因为 32 位 体系 结构 不 能 原子 地 一 次 访问 烈 位 变量 中 的 两 个 32 位 数值 。 在 读 取 jiffhies 时 ， 特 殊 的 函数 利用 
xtime lock 销 对 jiftes 变量 进行 锁定 。 
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所 以 前 面 的 例子 可 以 改造 成 时 钟 一 回 绕 一 安全 (timer-wraparound-safe) 的 版 本 ， 形 式 
如 下 : 


unsigned long timeout = jiffies + HZ/2 ; 1/* 0.5 种 后 趋 时 */ 


fos 

if (time before{jiffies,timeout))1{ 
/* 没有 超时 ， 很 好 ...*/ 

jalse | 


/* 超时 了 ， 发 生 错 误 ...*/ 
} 


如 果 你 对 这 些 宏 能 避免 因为 回 绕 而 产生 的 错误 感到 好 奇 的 话 ， 你 可 以 试 一 试 对 这 两 个 参数 取 
不 同 的 值 。 然 后 ， 设 定 一 个 参数 回 绕 到 0 值 ， 看 看 会 发 生 什么 。 


11.3.3 ”用户 室 间 和 HZ 


在 2.6 版 以 前 的 内 核 中 ， 如 果 改 变 内 核 中 HZ 的 值 ， 会 给 用 户 空 间 中 某 些 程序 造成 异常 结 
果 。 这 是 因为 内 核 是 以 节拍 数 / 秒 的 形式 给 用 户 空间 导出 这 个 值 的 ， 在 这 个 接口 稳定 了 很 长 一 段 
时 间 后 ， 应 用 程序 便 逐 新 依赖 于 这 个 特定 的 HZ 值 了 。 所 以 如 果 在 内 核 中 更 改 了 HZ 的 定义 值 ， 
就 打破 了 用 户 空 间 的 常量 关系 一 一 用 户 空间 并 不 知道 新 的 HZ 值 。 所 以 用 户 空间 可 能 认为 系统 运 
行 时 间 已 经 是 20 个 小 时 了 ， 但 实际 上 系统 仅仅 启动 了 两 个 小 时 。 

要 想 避 免 上 面 的 错误 ， 内 核 必须 更 改 所 有 导出 的 jiffies 值 。 因 而 内 核定 义 了 USER_HZ 来 代 
表 用 户 空 间 看 到 的 HZ 值 。 在 x86 体系 结构 上 ， 由 于 HZ 值 原来 一 直 是 100, 所 以 USER_HZ 值 就 
定义 为 100。 内 核 可 以 使 用 函数 jifhes_to_clock _t() (定义 于 kemeltime.c 中 ) 将 一 个 由 HZ 表示 
的 节拍 计数 转换 成 一 个 由 USER_HZ 表示 的 节拍 计数 。 所 采用 的 表达 式 取决 于 USER_HZ 和 HZ 
是 否 互 为 整数 倍 ， 而 且 USER_HZ 是 否 小 于 等 于 HZ。 如 果 这 两 个 条 件 都 注 足 ， 对 大 多 数 系统 来 
说 通常 也 能 够 满足 ， 则 表达 式 相当 简单 : 


return x / (HZ / USER HZ) ; 


如 果 不 是 整数 倍 关系 ， 那 么 该 宏 就 得 用 到 更 为 复杂 的 算法 了 。 

最 后 还 要 说 明 ， 内 核 使 用 函数 jifies_64_to_clock t0 将 64 位 的 jiffies 值 的 单位 从 HZ 转换 为 
USER HZ. 

在 需要 把 以 节拍 数 / 秒 为 单位 的 值 导出 到 用 户 空 间 时 ， 需 要 使 用 上 面 这 几 个 函数 。 比 如 : 


unsigned long start ; 
unsigned long total time; 


start = jiffies; 

/* 执行 一 些 任务 ...*/ 

total time = jiffies - start;} 

printk("That 七 DOK $lu ticks\n",jiffies to clock ti{total time})); 

用 户 空 间 期 望 HZ=USER_HZ, 但 是 如 果 它 们 不 相等 ， 则 由 宏 完 成 转换 ， 这 样 的 结果 卓然 十 
尼 大 欢喜 。 说 实话 ， 上 面 的 例子 看 起 来 是 挺 简单 的 ， 如 果 以 种 为 单位 而 不 是 以 节拍 为 单位 ， 输 出 
信息 会 执行 得 好 一 些 。 比 如 像 下 面 这 样 : 
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printk("That took $lu seconds \n",total time/H2); 


11.4 ” 硬 时 钟 和 定时 器 


体系 结构 提供 了 两 种 设备 进行 计时 一 一 一 种 是 我 们 前 面 讨论 过 的 系统 定时 器 ; 另 一 种 是 实时 
时 钟 。 虽 然 在 不 同 机 普 上 这 两 种 时 钟 的 实现 并 不 相同 ， 但 契 它 们 有 着 相同 的 作用 和 设计 思路 。 


11.4.1 ”实时 了 时钟 


实时 时 钟 (RTC) 是 用 来 持久 存放 系统 时 间 的 设备 ， 即 便 系统 关闭 后 ， 它 也 可 以 靠 主 板 上 
的 微型 电 字 提供 的 电力 保持 系统 的 计时 。 在 PC 体系 结构 中 ，RTC 和 CMOS 集成 在 一 起 ， 而 且 
RTC 的 运行 和 BIOS 的 保存 设置 都 是 通过 同一 个 电 字 供电 的 。 

当 系 统 启动 时 ， 内 核 通 过 读 取 RTC 来 初始 化 墙 上 时 间 ， 该 时 间 存 放 在 xtime 变量 中 。 虽 然 
内 核 通常 不 会 在 系统 启动 后 再 读 取 xtime 变量 ， 但 是 有 些 体系 结构 (比如 x86) 会 周期 性 地 将 当 
前 时 间 值 存 回 RTC 中 。 尽 管 如 此 ， 实 时 时 钟 最 主要 的 作用 仍 是 在 启动 时 初始 化 xtime 变量 。 


11.4.2 系统 定时 器 


系统 定时 器 是 内 核定 时 机 制 中 最 为 重要 的 角色 。 尽 管 不 同体 系 结构 中 的 定时 器 实现 不 尽 
相同 ， 但 是 系统 定时 器 的 根本 思想 并 没有 区 别 一 一 提供 一 种 周期 性 触发 中 断 机 制 。 有 些 体系 结 
构 是 通过 对 电子 晶振 进行 分 频 来 实现 系统 定时 器 ， 还 有 些 体系 结构 则 提供 了 一 个 衰减 测量 器 
(decrementer) 一 一 衰减 测量 器 设置 一 个 初始 值 ， 该 值 以 固定 频率 递减 ， 当 减 到 零 时 ， 触 发 一 个 
中 断 。 无 论 哪 种 情况 ， 其 效果 都 一 样 。 

在 x86 体系 结构 中 ， 主 要 采用 可 编程 中 断 时 钟 (PIT)。PIT 在 PC 机 器 中 普遍 存在 ， 而 且 从 
DOS 有 时代， 就 开始 以 它 作为 时 钟 中 断 源 了 。 内 核 在 启动 时 对 PIT 进行 编程 初始 化 ， 使 其 能 够 以 
HZ/ 种 的 频率 产生 时 钟 中 断 (中 断 0)。 虽 然 PIT 设备 很 简单 ， 功 能 也 有 限 ， 但 它 却 足以 满足 我 
们 的 需要 。x86 体系 结构 中 的 其 他 的 时 钟 资源 还 包括 本 地 APIC 时 钟 和 时 间 惟 计数 (TSC) 等 。 


11.5 ”时 钟 中 断 处 理 程序 


现在 我 们 已 经 理解 了 HZ、jiffies 等 概念 以 及 系统 定时 器 的 功能 。 下 面 将 分 析 时 钟 中 断 处 理 
程序 是 如 何 实现 的 。 时 钟 中 断 处 理 程序 可 以 划分 为 两 个 部 分 : 体系 结构 相关 部 分 和 体系 结构 无 
关 部 分 。 

与 体系 结构 相关 的 例 程 作为 系统 定时 器 的 中 断 处 理 程序 而 注册 到 内 核 中 ， 以 便 在 产生 
时 钟 中 断 时 ， 它 能 够 相应 地 运行 。 虽 然 处 理 程序 的 具体 工作 依赖 于 特定 的 体系 结构 ， 但 是 绝 大 多 
数 处 理 程序 最 低 限度 也 都 要 执行 如 下 工作 : 

.获得 xtime_lock 锁 ， 以 便 对 访问 jiffies_64 和 墙 上 时 间 xtime 进行 保护 。 

. 需要 时 应 答 或 重新 设置 系统 时 钟 。 

. 周期 性 地 使 用 墙 上 时 间 更 新 实时 时 钟 。 

. 调用 体系 结构 无 关 的 时 钟 例 程 , tick_periodic0。 

中 断 服务 程序 主要 通过 调用 与 体系 结构 无 关 的 例 程 ，tick_periodic() 执行 下 面 更 多 的 工作 : 
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* 给 jiffies_64 变量 增加 1 这 个 操作 即使 是 在 32 位 体系 结构 上 也 是 安全 的 ， 因 为 前 面 已 经 
获得 了 xtime lock 锁 )。 

* 更 新 资源 消耗 的 统计 值 ， 比 如 当前 进程 所 消耗 的 系统 时 间 和 用 户 时 间 。 

* 执行 已 经 到 期 的 动态 定时 器 〈11.6 节 将 讨论 )。 

* 执行 第 4 章 曾 讨论 的 sheduler tick( 国 数 。 

“更 新 墙 上 时 间 ， 该 时 间 存 放 在 xtime 变量 中 。 

. 计算 平均 负载 值 

因为 上 述 工作 分 别 都 由 单独 的 函数 负责 完成 ， 所 [以 tick_periodic0 例 程 的 代码 看 起 来 非常 简单 。 

static void tick periodict(int cpu) 


if (tick do timer cpu == cpu) { 
write seqlock (gxtime lock); 


/* 记录 下 一 个 节拍 事件 */ 


tick next period = ktime addl{ltick next period, tick period); 


do timert{1):; 
write sequnlock (&xtime lock); 


} 


update process times (user modelget irg regsl))); 
Profile tick(cCPU PROFILING); 


} 
很 多 重要 的 操作 都 在 do_timer0 和 update_process_times0 函数 中 进行 。 前 者 承担 着 对 jiffies_64 
的 实际 增加 操作 : 


Void do timer{unsigned long ticks) 


t 
jiffies 64 十 = ticks,; 
update wall time'); 
calc global load!(); 
} 


函数 update_wall_time0， 顾 名 思 义 ， 根 据 所 流逝 的 时 间 更 新 墙 上 的 时 钟 ， 而 calc_global_ 
load0 更 新 系统 的 平均 负载 统计 值 。 当 do_timer( 最 终 返 回 时 ， 调 用 update_process_times() 更 新 
所 耗费 的 各 种 节拍 数 。 注 意 ， 通 过 user tick 区 别 是 花费 在 用 户 空间 还 是 内 核 空间 。 


void update process times (int user tick) 


struct task struct *p = current; 

int cpu = SMp processor idl); 

/* 注意 : 也 必须 对 这 个 时 钟 irg 的 上 下 文 说 明 一 下 原因 */ 
account procees tick{p, user tick),; 

run local timers'(); 

rcu check callbacks (cpu, user tick); 

printk tick(); 

Scheduler tick!(); 

run posix cpu timers lp); 
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回想 一 下 tick_periodic()，user_tick 的 值 是 通过 查看 系统 寄存 器 来 设置 的 : 


update process times (user modelget irqg regs(}))); 
account_process_tick() 函数 对 进程 的 时 间 进 行 实质 性 更 新 : 


void account process 七 ICKI(StTUCt task struct *p, int user tick) 


{ 
cputime 七 One jiffy scaled = cputime to scaledlcputime one jiffy)}; 
struct rg *rg = this rgq(); 


if (user tick) 
account user time(p, cputime one jiffy, one jiffy scaled); 
else it ((p l= rq->idle}) || (irg count() != HARDIRQ OFFSET)) 
account system time(p, HARDIRQ OPFSET, cputime one jiffy, 
one jiffy scaled); 
全 5e 
account idle time(cputime one jiffy); 


} 


也 许 你 已 经 发 现 了 ， 这 样 做 意味 着 内 核对 进程 进行 时 间 计 数 时 ， 是 根据 中 断 发 生 时 处 理 器 所 
处 的 模式 进行 分 类 统计 的 ， 它 把 上 一 个 节拍 全 部 算 给 了 进程 。 但 是 事实 上 进程 在 上 一 个 节拍 期 间 
可 能 多 次 进入 和 退出 内 核 模式 ， 而 且 在 上 一 个 节拍 期 间 ， 读 进程 也 不 一 定 是 唯一 一 个 运行 进程 。 
很 不 幸 ， 这 种 粒 诬 的 进程 统计 方式 是 传统 的 Unix 所 具有 的 ， 现 在 还 没有 更 加 精密 的 统计 算法 的 
支持 ， 内 核 现 在 只 能 做 到 这 个 程度 。 这 也 是 内 核 应 该 采用 更 高 频率 的 另 一 个 原因 。 

接 下 来 的 run_lock_ timers() 函数 标记 了 一 个 软 中 断 〈 请 参考 第 8 章 ) 去 处 理 所 有 到 期 的 定时 
器 ， 在 11.6 节 中 将 具体 讨论 定时 器 。 

最 后 ，scheduler_tick() 函数 负责 减少 当前 运行 进程 的 时 间 片 计数 值 并 且 在 需要 时 设置 need_ 
resched 标志 。 在 SMP 机 器 中 ， 该 函数 还 要 负责 平衡 每 个 处 理 器 上 的 运行 队列 ， 这 后 在 第 4 午 曾 
讨论 过 。 

tick_periodic() 函数 执行 完毕 后 返回 与 体系 结构 相关 的 中 断 处 理 程 序 ， 继 续 执 行 后 面 的 工作 ， 
释放 xtime lock 锁 ， 然 后 退出 。 

以 上 全 部 工作 每 MHZ 种 都 要 发 生 一 次 ， 也 就 是 说 在 x86 机 器 上 时 钟 中 断 处 理 程序 每 秒 执行 
100 次 或 者 1000 次 。 


11.6 ”实际 时 间 
当前 实际 时 间 ( 墙 上 时 间 ) 定义 在 文件 kernel/time/timekeeping.c 中 : 


struct timespec xtime; 


timespec 数据 结构 定义 在 文件 <linux/time.h> 中 ， 形 式 如 下 : 


struct timespec! 
kaernel time 七 tv sec; As 种 */ 
long tv nsec; A/* ns */ 


}; 
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xtime.tv_sec 以 秒 为 单位 ， 存 放 着 自 1970 年 1 月 1 日 (UTC) 以 来 经 过 的 时 间 ，1970 年 1 
月 1 日 被 称 为 纪元 ， 多 数 Unix 系统 的 墙 上 时 间 都 是 基于 该 纪元 而 言 的 。xtime.v_nsec 记录 自 上 一 
秒 开始 经 过 的 ns 数 。 

读 写 xtime 变量 需要 使 用 xtime_lock 销 ， 该 锁 不 是 普通 自 旋 锁 而 是 一 个 seqlock 锁 ， 在 第 10 
章 中 章 讨论 过 seqlock 锁 。 

更 新 xtime 首先 要 申请 一 个 seqlock 锁 : 

Write sedqlock (gxtime lock); 

1/* 击 新 Xxtime... */ 


write sequnlock (gxtime lock); 


读 取 xtime 时 也 要 使 用 read_seqbegin() 和 read_seqretry0 国 数 : 


ungsigned long seg; 


do { 
unsigned long lost; 
号 已 可 = read Seqbegin(&xtime lock); 


usec = timer->get offset!(); 
lost = jiffies 一 wall jiffies; 
if {lost) 
USec += lost * (1000000 / H2); 
Sec = Xtime.tvy sec; 
usec += (xXtime.tv nsec / 1000);} 
} While (read gegretry(sxtime lock, seq)); 


该 循环 不 断 重 复 ， 直 到 读者 确认 读 取 数据 有 时 没有 写 操作 介入 。 如 果 发 现 循 环 期 间 有 时钟 中 断 
处 理 程序 更 新 xtime， 那 么 read_seqretry() 函数 就 返回 无 效 序列 号 ， 继 续 循 环 等 待 。 

从 用 户 空 间 取得 雯 上 时 间 的 主要 接口 是 gettimeofday0， 在 内 核 中 对 应 系统 调用 为 sys_ 
gettimeofday()， 定 处于 kernel/time.c : 


asmlinkage long Sys gettimeofday(struct timeval *tv, struct timezone *t2z) 
{ 
if (likelyiltw)) { 
Btruct timeval 其 七 本 
do _gettimeofday (EKtv}; 
if {copy to user(tv, &ktv, sizeof(ktv}))})) 
return -EFAULT:; 
} 
if (unlikely(tz}y) 1 
if (copYy to user(tz, 5BYS ts, Sizeof(sys tz))) 
return -EFAULT; 
} 


return 0 
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如 果 用 户 提供 的 tv 参数 非 空 ， 那 么 与 体系 结构 相关 的 do_gettimeofday0 函数 将 被 调用 。 该 
函数 执行 的 就 是 上 面 提 到 的 循环 读 取 xtime 的 操作 。 如 果 世 参数 为 空 ， 该 函数 将 把 系统 时 区 
《存放 在 sys_tz 中 ) 返回 用 户 。 如 果 在 给 用 户 空 间 拷 贝 墙 上 时 间或 时 区 时 发 生 错 误 ， 该 函数 返 
回 -EFAULT ; 如 果 成 功 ， 则 返回 0。 

虽然 内 核 也 实现 了 time0 系统 调用 ， 但 是 gettimeofday( 几乎 完全 取代 了 它 。 另 外 C 库 函 
数 也 提供 了 一 些 墙 上 时 间 相 关 的 库 调用 ， 比 如 ftime() 和 ctime()。 

另外 ， 系 统 调用 settimeofday() 来 设置 当前 时 间 ， 它 需要 具有 CAP_SYS_TIME 权能 。 

除了 更 新 xtime 时 间 以 外 ， 内 核 不 会 像 用 户 空 间 程 序 那 样 频 营 使 用 xtime。 但 也 有 需要 注意 
的 特殊 情况 ， 那 就 是 在 文件 系统 的 实现 代码 中 存放 访问 时 间 蕉 (创建 、 存 取 、 修 改 等 ) 时 需要 使 


用 xtime。 


11.7 定时 呢 


定时 器 (有 时 也 称 为 动态 定时 器 或 内 核定 时 器 是 管理 内 核 流 烛 的 时 间 的 基础 。 内 核 经 常 需 
要 推 后 执行 某 些 代码 ， 比 如 以 前 章节 提 到 的 下 半 部 机 制 就 是 为 了 将 工作 放 到 以 后 执行 。 但 不 幸 的 
是 ， 之 后 这 个 概念 很 含糊 ， 下 半 部 的 本 意 并 非 是 放 到 以 后 的 某 个 时 间 去 执行 任务 ， 而 仅仅 是 不 在 
当前 时 间 执 行 就 可 以 了 。 我 们 所 需要 的 是 一 种 工具 ， 能 够 使 工作 在 指定 时 间 上 后 上 执行 一 一 不 长 不 
短 ， 正 好 在 希望 的 时 间 点 上 。 内 核定 时 器 正 是 解决 这 个 问题 的 理想 工具 。 

定时 器 的 使 用 很 简单 。 你 只 需要 执行 一 些 初始 化 工作 ， 设 置 一 个 超时 时 间 ， 指 定 超时 发 生 后 
执行 的 函数 ， 然 后 激 锋 定时 器 就 可 以 了 。 指 定 的 函数 将 在 定时 器 到 期 时 自动 执行 。 注 意 定 时 器 并 
不 周期 运行 ， 它 在 超时 后 就 自行 撤销 , 这 也 正 是 这 种 定时 器 被 称 为 动态 定时 器 @ 的 一 个 原因 ; 动 
态 定时 器 不 断 地 创建 和 撤销 ， 而 且 它 的 运行 次 数 也 不 受 限 制 。 定 时 器 在 内 核 中 应 用 得 非常 普遍 。 


11,7.1 使 用 定时 器 
定时 器 由 结构 timer list 表示 ， 定 义 在 文件 <linux/timer.h> 中 。 


struct timer list | 





struct list head entry; /* 定时 器 链表 的 人 口 */ 
unsigqned long expiresi /1* 以 jitties 为 单位 的 定时 值 */ 
void (*function) (unsigned long); /* 定时 器 处 理 函 数 */ 

unsigned long data; | /* 传 给 处 理 国 数 的 长 整 型 参数 */ 
struct tvec t base s *base; /* 定时 器 内 部 值 ， 用 户 不 要 使 用 */ 


}; 


幸运 的 是 ， 使 用 定时 器 并 不 需要 雁 入 了 解读 数据 结构 。 事 实 上 ， 过 座 地 陷入 读 结 构 ， 反 而 
会 使 你 的 代码 不 能 保证 对 可 能 发 生 的 变化 提供 支持 。 内 核 提 供 了 一 组 与 定时 器 相关 的 接口 用 来 简 
化 管理 定时 器 的 操作 。 所 有 这 些 接 口 都 声明 在 文件 <linuxtimerh> 中 ， 大 多 数 接口 在 文件 kernel/ 
timer.c 中 获得 实现 。 


日 ”但 在 某 些 体系 结构 中 ， 并 没有 实现 sys_time()， 而 是 用 心 库 中 的 gettimeofday() 函数 模拟 它 。 
旧 ” 另 一 个 原因 是 (2.3 版 本 前 ) 内 棱 也 存在 静态 定时 器 。 这 种 定时 器 在 编译 时 创建 ， 而 不 是 实时 创建 。 由 于 静态 
定时 器 存在 缺陷 ， 已 经 被 询 庆 了 。 
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创建 定时 普 时 需要 先 定 义 它 : 


struct timer list my timer; 


接着 需要 通过 一 个 辅助 函数 来 初始 化 定时 絮 数 据 结构 的 内 部 值 ， 初 始 化 必须 在 使 用 其 他 定时 
器 管理 函数 对 定时 器 进行 操作 前 完成 。 

init timer (gmy timer); 

现在 你 可 以 填充 结构 中 需要 的 值 了 : 


my timer.expires = jiffies + delay; /xz 定时 器 超时 时 的 节拍 数 */ 

my_timer.data = 0; /* 给 定时 器 处 理 函 数 传人 0 值 */ 

my timer.function = my function: /* 定时 器 超时 时 调用 的 函数 */ 

my_timer.expires 表示 超时 时 间 ， 它 是 以 节拍 为 单位 的 绝对 计数 值 。 如 果 当 前 jiffies 计数 等 
于 或 大 于 my timerexpires， 那 么 my_timer.function 指 癌 的 处 理 国 数 就 会 开始 执行 ， 另 外 该 函数 
还 要 使 用 长 整 型 参数 my_timer.data。 所 以 正如 我 们 从 timer_list 结构 看 到 的 形式 ， 处 理 函 数 必须 
符合 下 面 的 函数 原型 : 


void my timer functicon(unsigned long data); 


data 参数 使 你 可 以 利用 同一 个 处 理 函 数 注册 多 个 定时 器 ， 只 需 通 过 该 参数 就 能 区 别 对 待 它 
们 。 如 果 你 不 需要 这 个 参数 ， 就 可 以 简单 地 传递 0 (或 任何 其 他 值 ) 给 处 理 函 数 。 
最 后 ， 你 必须 激活 定时 器 : 


add timer (&my timer); 


大 功 告 成 ， 定 时 器 可 以 工作 了 ! 但 请 注意 定时 值 的 重要 性 。 当 前 市 拍 计数 等 于 或 大 于 指定 的 
超时 时 ， 内 核 就 开始 执行 定时 器 处 理 函 数 。 虽 然 内 核 可 以 保证 不 会 在 超时 时 间 到 期 前 运行 定时 器 
处 理 函 数 ， 但 是 有 可 能 延误 定时 器 的 执行 。 一 般 来 说 ， 定 时 器 都 在 超时 后 马上 就 会 执行 ， 但 是 也 
有 可 能 推迟 到 下 一 次 时 钟 节拍 时 才能 运行 ， 所 以 不 能 用 定时 器 来 实现 任何 硬 实时 任务 。 

有 时 可 能 需要 更 改 已 经 激活 的 定时 器 超时 时 间 ， 所 以 内 核 通 过 函数 mod timer( 来 实现 该 功 
能 ， 该 函数 可 以 改变 指定 的 定时 器 超时 时 间 : 


mod 七 Imez (Ermy timer,jiffiestnew delay); A/* 新 的 定时 值 */ 


mod timer() 国 数 也 可 操作 那些 已 经 初始 化 ， 但 还 没有 被 激活 的 定时 器 ， 如 果 定 时 器 未 被 激 
活 ，mod_timer() 会 激活 它 。 如 果 调 用 时 定时 如 未 被 微 注 ， 该 函数 返回 0 ; 否则 返回 1。 但 不 论 哪 
种 情况 ， 一 旦 从 mod timer() 函数 返回 ， 定 时 器 都 将 被 激活 而 且 设 置 了 新 的 定时 值 。 

如 果 需 要 在 定时 器 超时 前 停止 定时 器 ， 可 以 使 用 del_timer() 函数 : 


del 七 Imer (&my timer); 


被 激活 或 未 被 激活 的 定时 器 都 可 以 使 用 该 函数 ， 如 果 定 时 器 还 未 被 激活 ， 读 函数 返回 0 ; 否 
则 返回 1。 注 意 ， 不 需要 为 已 经 超时 的 定时 器 调用 该 函数 ， 因 为 它们 会 自动 删除 。 . 

当 删 除 定时 器 时 ， 必 须 注意 一 个 潜在 的 竞争 条 件 。 当 del_timer() 返回 后 ， 可 以 保证 的 只 是 : 
定时 器 不 会 再 被 激活 〈 也 就 是 ， 将 来 不 会 执行 )， 但 是 在 多 处 理 器 机 器 上 定时 器 中 断 可 能 已 经 在 
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其 他 处 理 器 上 运行 了 ， 所 以 删除 定时 器 时 需要 等 待 可 能 在 其 他 处 理 器 上 运行 的 定时 器 处 理 程序 都 
退出 ， 这 时 就 要 使 用 del_timer_sync() 国 数 执行 删除 工作 ; 


del timer sync{lgmy timer):; 


和 del_timer() 函数 不 同 ，del_timer_sync() 函数 不 能 在 中 断 上 下 文中 使 用 。 


11.7.2 ”定时 器 竞争 条 件 


因为 定时 器 与 当前 执行 代码 是 异步 的 ， 因 此 就 有 可 能 存在 潜在 的 竞争 条 件 。 所 以 ， 首 先 ， 绝 
不 能 用 如 下 所 示 的 代码 替代 mod_timer( 函数 ， 来 改变 定时 器 的 超时 时 间 。 这 样 的 代码 在 多 处 理 
器 机 器 上 是 不 安全 的 : 


del timer (my timer) 

my timer->expires = jiffies + new delay,; 

add timer (my 七 ImeI) :; 

其 次 ， 一般 情况 下 应 该 使 用 del_timer_sync() 函数 取代 del_timer( 函数 ， 因 为 无 法 确定 在 删 
除 定时 背 时 ， 它 是 否 正在 其 他 处 理 器 上 运行 。 为 了 防止 这 种 情况 的 发 生 ， 应 该 调用 del_timer_ 
sync() 图 数 ， 而 不 是 del_timer() 国 数 。 否 则 ， 对 定时 器 执行 删除 操作 后 ， 代 码 会 继续 执行 ， 但 它 
有 可 能 会 去 操作 在 其 他 处 理 器 上 运行 的 定时 器 正在 使 用 的 资源 ， 因 而 造成 并 发 访问 ， 所 以 请 优先 
使 用 删除 定时 器 的 同步 方法 。 

最 后 ， 因 为 内 核 异步 执行 中 断 处 理 程序 ， 所 以 应 该 重点 保护 定时 器 中 断 处 理 程 序 中 的 共享 数 
据 。 定 时 器 数据 的 保护 问题 曾 在 第 8 章 和 第 9 章 讨 论 过 。 


11.7.3 ”实现 定时 器 


内 核 在 时 钟 中 断 发 生 后 执行 定时 器 ， 定 时 器 作为 软 中 断 在 下 半 部 上 下 文中 执行 。 具 体 
来 说 ， 时 钟 中 断 处 理 程 序 会 执行 update process times( 函数 ， 该 函数 随即 调用 run local 
timers() 国 数 : 


void run local timers (void) 


{ 


hrtimer run queues (1) : 
raise softirq(TIMER_SOFTIRQ) ; /* 执行 定时 器 软 中 断 */ 
softlockup tick(); 
run timer softirq0 函数 处 理 软 中 断 TIMER SOFTIRQ， 从 而 在 当前 处 理 器 上 运行 所 有 的 
(如 果 有 的 话 ) 超时 定时 器 。 
虽然 所 有 定时 器 都 以 链表 形式 存放 在 一 起 ， 但 是 让 内 核 经 常 为 了 寻找 超时 定时 器 而 遍历 整个 
链表 是 不 明智 的 。 同 样 ， 将 链表 以 超时 时 间 进 行 排序 也 是 很 不 明智 的 做 法 ， 因 为 这 样 一 来 在 链表 
中 插入 和 删除 定时 器 都 会 很 费时 。 为 了 提高 搜索 效率 ， 内 核 将 定时 器 按 它们 的 超时 时 间 划 分 为 五 
组 。 当 定时 器 超时 时 间接 近 时 ， 定 时 器 将 随 组 一 起 下 移 。 采 用 分 组 定时 器 的 方法 可 以 在 执行 软 中 
断 的 多 数 情况 下 ， 确 保 内 核 尽 可 能 减少 搜索 超时 定时 器 所 带 来 的 负担 。 因 此 定时 器 管理 代码 是 非 
常 高 效 的 。 
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11.8 ”延迟 执行 


内 核 代码 (尤其 是 驱动 程序 ) 除了 使 用 定时 器 或 下 半 部 机 制 以 外 ， 还 需要 其 他 方法 来 推迟 执行 任 
务 。 这 种 推迟 通常 发 生 在 等 待 硬件 完成 某 些 工作 时 ， 而 且 等 待 的 时 间 往 往 非常 短 ， 比 如 ， 重 新 设置 网 
卡 的 以 太 模 式 需 要 花费 2ms， 所 以 在 设 定 网 卡 速度 后 ， 驱 动 程序 必须 至 少 等 待 2ms 才能 继续 运行 。 

内 核 提供 了 许多 延迟 方法 处 理 各 种 延迟 要 求 。 不 同 的 方法 有 不 同 的 处 理 特 点 ， 有 些 是 在 延迟 
任务 时 挂 起 处 理 器 ， 防 止 处 理 器 执行 任何 实际 工作 ; 另 一 些 不 会 挂 起 处 理 器 ， 所 以 也 不 能 确保 被 
延迟 的 代码 能 够 在 指定 的 延迟 时 间 旨 运行 。 


11.8.1 和 忙 等 待 


最 简单 的 延迟 方法 (虽然 通常 也 是 最 不 理想 的 办 法 ) 是 忙 等 待 〈 或 者 说 忙 循环 )。 但 要 注意 
该 方法 仅仅 在 想 要 延迟 的 时 间 是 节拍 的 整数 倍 ， 或 者 精确 率 要 求 不 高 时 才 可 以 使 用 。 
忙 循环 实现 起 来 很 简单 一 一 在 循环 中 不 断 旋转 直到 希望 的 时 钟 节拍 数 耗 尽 ， 比 如 : 


unsigned long timeout = jiffiessg+10; Am 10 个 节拍 #*/ 


while (time before{jiffies, timeout)}) 


循环 不 断 执行 ， 直 到 jiffies 大 于 delay 为 止 ， 总 共 的 循环 时 间 为 10 个 节拍 。 在 HZ 值 等 于 
1000 的 x86 体系 结构 上 ， 耗 时 为 10ms。 类 似 地 : 


unsigned long delay = jiffies + 2*HZ; js 2 种 */ 
while (time before(jiffies,delay)) 


程序 要 循环 等 待 2XHZ 个 时 钟 节 拍 ， 也 就 是 说 无 论 时 钟 节 拍 率 如 何 ， 都 将 等 待 2s。 

对 于 系统 的 其 他 部 分 ， 忙 循环 方法 算 不 上 一 个 好 办 法 。 因 为 当代 码 等 待 时 ， 处 理 器 只 能 在 原 地 
旋转 等 待 一 一 它 不 会 去 处 理 其 他 任何 任务 ! 事实 上 ， 你 几乎 不 会 用 到 这 种 低 效 率 的 办 法 ， 这 里 介绍 
它 仅仅 因为 它 是 最 简单 最 直接 的 延迟 方法 。 当 然 你 也 可 能 在 那些 向 脚 的 代码 中 发 现 它 的 身影 。 

更 好 的 方法 应 该 是 在 代码 等 待 时 ， 人 允许 内 核 重新 调度 执行 其 他 任务 : 


unsigned long delay = jiffies +S5*H2Z; 


while{!time before(jiffies,delay)) 
cond resched'(); 


cond_resched0 函数 将 调度 一 个 新 程序 投入 运行 ， 但 它 只 有 在 设置 完 need _resched 标志 后 才能 生 
效 。 换 句 话 说 ， 该 方法 有 效 的 条 件 是 系统 中 存在 更 重要 的 任务 需要 运行 。 注 意 ， 因 为 该 方法 需要 调 
用 调度 程序 ， 所 以 它 不 能 在 中 断 上 下 文中 使 用 一 一 只 能 在 进程 上 下 文中 使 用 。 事 实 上 ， 所 有 延迟 方 
法 在 进程 上 下 文中 使 用 得 很 好 ， 因 为 中 断 处 理 程序 都 应 该 尽 可 能 快 地 执行 〈 忙 循环 与 这 种 目标 绝对 
是 背道而驰 )。 另 外 ， 延 迟 执行 不 管 在 哪 种 情况 下 ， 都 不 应 该 在 持 有 锁 时 或 禁止 中 断 时 发 生 。 


日 事实 上 ， 没有 方法 能 保证 实际 的 延迟 刚好 等 干 指定 的 延迟 时 间 ， 虽 然 可 以 非常 接近 ， 但 是 最 精确 的 情况 也 只 
能 达到 接近 ， 多 数 情况 都 要 长 于 指定 时 间 。 
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C 语言 的 推崇 者 可 能 会 问 : 什么 能 保证 前 面 的 循环 已 经 执行 了 。C 编译 器 通常 只 将 变量 装 
载 一 次 。 一 般 情况 下 不 能 保证 循环 中 的 jifhies 变量 在 每 次 循环 中 被 读 取 时 都 重新 被 载 人 。 但 是 我 
们 要 求 jiffies 在 每 次 循环 时 都 必须 重新 装载 ， 因 为 在 后 台 jiffies 值 会 随时 钟 中 断 的 发 生 而 不 断 增 
加 。 为 了 解决 这 个 问题 ，<linux/jiffies.h> 中 jiffies 变量 被 标记 为 关键 字 volatile。 关 键 字 volatile 
指示 编译 器 在 每 次 访问 变量 时 都 重新 从 主 内 存 中 获得 ， 而 不 是 通过 寄存 器 中 的 变量 别名 来 访问 ， 
从 而 确保 前 面 的 循环 能 按 预 期 的 方式 执行 。 


11.8.2 ” 短 延 迟 


有 了 时 内 核 代 码 (通常 也 是 驱 动 程序 〉 不 但 需要 很 短暂 的 延迟 〈 比 时 钟 节拍 还 短 )， 而 且 还 要 
求 延迟 的 时 间 很 精确 。 这 种 情况 多 发 生 在 和 硬件 同步 时 ， 也 就 是 说 需要 短暂 等 待 某 个 动作 的 完成 
(等 待 时 间 往 往 小 于 lms)， 所 以 不 可 能 使 用 像 前 面 例子 中 那 种 基于 jiffies 的 延迟 方法 。 对 于 频率 
为 100HZ 的 时 钟 中 断 ， 它 的 节拍 间隔 甚至 会 超过 10ms ! 即使 频率 为 1000HZ 的 时 钟 中 断 ， 节 拍 
间隔 也 只 能 到 lms， 所 以 我 们 必须 寻找 其 他 方法 福 足 更 短 、 更 精确 的 延迟 要 求 。 

幸运 的 是 ， 内 核 提供 了 三 个 可 以 处 理 ms、ns 和 ms 级 别 的 延迟 函数 ， 它 们 定义 在 文件 
<linux/delay.h > 和 <asm/delay.h> 中 ， 可 以 看 到 它们 并 不 使 用 jiffies : 


VOid udelay (unsigned long usecgs) 
void ndelay (unsigned long naecs) 
Void mdelay (unsigned long msecas) 


前 一 个 函数 利用 忙 循环 将 任务 延迟 指定 的 ms 数 后 运行 ， 后 者 延迟 指定 的 ms 数 。 众 所 周知 ， 
ls 等 于 1000ms， 等 于 1000000 ns。 这 个 函数 用 起 来 很 简单 : 


udelay (150); /延迟 150umst+/ 


udelay0 国 数 依靠 执行 数 次 循环 达到 延迟 效 永 ， 而 mdelay0 国 数 又 是 通过 udelay0 国 数 实 
现 的 。 因 为 内 核 知 道 处 理 器 在 1 秒 内 能 执行 多 少 次 循环 《请 看 副 栏 中 的 BogoMIPS 内 容 )， 所 以 
udelay0 函数 仅仅 需要 根据 指定 的 延迟 时 间 在 1 秒 中 占 的 比例 ， 恕 能 决定 需要 进行 多 少 次 循环 即 
可 达到 要 求 的 推迟 时 间 。 


: 我 的 BogoMIPS 比 你 的 大 
则 BogoMIPS 值 总 是 让 人 觉得 糊涂 ， 也 让 人 觉得 有 意思 。 其 实 ， 计 算 BogoMIPS 并 不 是 为 
， 了 表现 你 的 机 器 性 能 ， 它 主要 被 udelay() 函数 和 mdelay0 函数 使 用 。 它 的 名 字 取 自 bogus (也 
就 是 伪 的 ) 和 MIPS (每 秒 处 理 百 万 条 指令 )。 大 家 都 熟悉 下 面 这 样 的 系统 启动 信息 〈 摘 自 一 
s 个 装配 主 频 为 2.4GHZ 的 7300 系列 Intel Xeon 处 理 器 的 机 器 启动 信息 ) : 


二 Detected 2400.131 MHz processor. 

六 Calibrating delay loop ... 4799.56 BogoMIPS 

” ”BogoMIPS 值 记录 处 理 器 在 给 定时 间 内 忙 循环 执行 的 次 数 。 其 实 ,BogoMIPS 记录 处 理 器 在 

; 空闲 时 速 诺 有 多 快 。 该 值 存 放 在 变量 loops_per jiffy 中 ， 可 以 从 文件 /proc/cpuinfo 中 读 到 它 。 延 

” 迟 循环 函数 使 用 loops_ per jiffy 值 来 计算 (相当 准确 ) 为 提供 精确 延迟 而 需要 进行 多 少 次 循环 。 
内 核 在 启动 时 利用 calibrate_delay( 计算 loops_per_jiffy 值 ， 该 函数 在 文件 mitimain.c 中 。 
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udelay() 国 数 应 当 只 在 小 延迟 中 调用 ， 因 为 在 快速 机 器 上 的 大 延迟 可 能 导致 谥 出 。 通 常 ， 超 
过 lms 的 范围 不 要 使 用 udelay0 进行 延迟 。 对 于 较 长 的 延迟 ，mdelay0 工作 良好 。 像 其 他 忙 等 而 
延迟 执行 的 方案 ， 除 非 绝 对 必要 ， 这 两 个 函数 (尤其 是 mdelay0， 因 为 用 于 长 的 延迟 ) 都 不 应 当 
使 用 。 记 住 ， 持 锁 忙 等 或 禁止 中 断 是 一 种 粗鲁 的 做 法 ， 因 为 系统 响应 时 间 和 性 能 都 会 大 受 影 响 。 
不 过 ， 如 果 你 需要 精确 的 延迟 ， 这 些 调用 是 最 好 的 办 靶 。 这 些 忙 等 函数 主要 用 在 延迟 小 的 地 方 ， 
通常 在 ns 范围 内 。 


11.8.3 schedule timeout() 


更 理想 的 延迟 执行 方法 是 使 用 schedule timeout( 函数 ， 读 方法 会 让 需要 延迟 执行 的 任务 睡 
眠 到 指定 的 延迟 时 间 耗 尽 后 再 重新 运行 。 但 该 方法 也 不 能 保证 睡眠 时 间 正 好 等 于 指定 的 延迟 时 
间 ， 只 能 尽量 使 睡眠 时 间接 近 指 定 的 延迟 时 间 。 当 指定 的 时 间 到 期 后 ， 内 核 唤 醒 被 延迟 的 任务 并 
将 其 重新 放 回 运行 队列 ， 用 法 如 下 : 


/* 将 任务 设置 为 可 中 断 睡 眼 状态 */ 
set current state (TASK INTERRUPTIBLE):; 


/* 小 睡 一 会 儿 ,“s” 种 后 唤醒 */ 


schedule timeout (s*H2);} 

唯一 的 参数 是 延迟 的 相对 时 间 ， 单 位 为 jifies， 上 例 中 将 相应 的 任务 推 信 可 中 断 睡眠 队 
列 ， 睡 卢 s 秒 。 因 为 任务 处 于 可 中 断 状 态 ， 所 以 如 果 任 务 收 到 信号 将 被 唤醒 。 如 果 有 睡眠 任务 不 
想 接收 信号 ， 可 以 将 任务 状态 设置 为 TASK_UNINTERRUPTIBLE， 然 后 睡眠 。 注 意 ， 在 调用 
sechedule_timeout() 国 数 前 必须 首先 将 任务 设置 成 上 面 两 种 状态 之 一 ， 否 则 任务 不 会 睡眠 。 

注意 ， 由 于 schedule_timeout() 函数 需要 调用 调度 程序 ， 所 以 调用 它 的 代码 必须 保证 能 够 睡 
眠 (请 参考 第 8 章 和 第 9 章 )。 简 而 言 之 ， 调 用 代码 必须 处 于 进程 上 下 文中 ， 并 且 不 能 持 有 锁 。 

]. schedule timeout() 的 实现 

schedule_timeout() 函数 的 用 法 相当 和 简单、 直接。 其 实 ， 它 是 内 核定 时 器 的 一 个 简单 应 用 。 
请 看 下 面 的 代码 : 

signed long schedule timeout (signed long timeout) 

{ 


timer 七 timer; 
unsigned long expire; 


switch (timeout)} 
{ 
case MAX SCHEDULE TIMEOUT: 
schedule{); 
goto out; 
default: 
if (timeout < 0) 
{ 
printk(KERN ERR “Schedule timeout: wrong timeout * 
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“value %1x from 他 PVn” ， 七 imeocut， 
_ builtin return address(0})); 
current->atate = TASK RUMMING; 
goto out; 


} 
expire = timeout + Jiffies; 


init timer(&timer); 

timer. expires = expire; 

timer.data = (unsigned long) current; 
timer.function = process timeout; 


add timer(stimer); 
schedule{}); 
del timer sync(stimer); 


timeout = expire 一 jiffies; 


阁员 七 
return timeout < 0 ?0 七 Imecout; 


} 


该 函数 用 原始 的 名 字 timer 创建 了 一 个 定时 器 timer ; 然后 设置 它 的 超时 时 间 timeout ; 设 
置 超时 执行 国 数 process_timeout() ; 接着 激活 定时 器 而 且 调 用 schedule()。 因 为 任务 被 标识 为 
TASK _ INTERRUPTIBLE 或 TASK UNINTERRUPTIBLE， 所 以 调度 程序 不 会 再 选择 该 任务 投入 
运行 ， 而 会 选择 其 他 新 任务 运行 。 

当 定 时 器 超时 了 时，process_timeout() 函数 会 被 调用 : 


Void process timeout (unsigned long data) 


{ 
| 


该 函数 将 任务 设置 为 TASK_RUNNING 状态 ， 然 后 将 其 放 入 运行 队列 。 

当 任 务 重新 被 调度 时 ， 将 返回 代码 进入 睡 卢 前 的 位 置 继续 执行 (正好 在 调用 schedule0 后 )。 
如 果 任 务 提前 被 唤醒 (比如 收 到 信号 )， 那 么 定时 器 被 撤销 , process_timeout0 函数 返回 剩余 的 时 间 。 

在 switch() 括号 中 的 代码 是 为 处 理 特殊 情况 而 写 的 ， 正常 情况 不 会 用 到 它们 。MAX_ 
SCHEDULE_TIMEOUT 是 用 来 检查 任务 是 否 无 限期 地 睡眠 ， 如 果 那 样 的 话 ， 国 数 不 会 为 它 设置 
定时 器 〈 因 为 睡眠 时 间 没 有 期 限 )， 而 这 时 调度 程序 会 立刻 被 调用 。 如 果 你 需要 无 限期 地 让 任务 
睡眠 ， 最 好 使 用 其 他 方法 唤醒 任务 。 

2. 设置 超时 时 间 ， 在 等 待 队列 上 睡眠 

第 4 章 我 们 已 经 看 到 进程 上 下 文中 的 代码 为 了 等 待 特定 事件 发 生 ， 可 以 将 自己 放 人 等 待 队 


二 


wake up process!l(task t *)data); 
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列 ， 然 后 调用 调度 程序 去 执行 新 任务 。 一 旦 事件 发 生 后 ， 内 核 调用 wake_upO 函数 唤醒 在 睡眠 队 
列 上 的 任务 ， 使 其 重新 投入 运行 。 

有 时， 等 待 队 列 上 的 某 个 任务 可 能 既 在 等 待 一 个 特定 事件 到 来 ， 又 在 等 待 一 个 特定 时 间 
到 期 就 看 谁 来 得 更 快 。 这 种 情况 下 ， 代 码 可 以 简单 地 使 用 schedule _ timeoutO 函数 代替 
schedule() 函数 ， 这 样 一 来 ， 当 希望 的 指定 时 间 到 期 ， 任 务 都 会 被 唤醒 。 当 然 ， 代 码 需 要 检查 被 
唤醒 的 原因 (有 可 能 是 被 事件 唤醒 ， 也 有 可 能 是 因为 延迟 的 时 间 到 期 ， 还 可 能 是 因为 接收 到 了 信 
号 )， 然 后 执行 相应 的 操作 。 


11.9 ”小结 


在 本 章 中 ， 我 们 考察 了 时 间 的 概念 ， 并 知道 了 墙 上 时 钟 与 计算 机 的 正常 运行 时 间 如 何 管理 。 
我 们 对 比 了 相对 时 间 和 绝对 时 间 以 及 绝对 事件 与 周期 事件 。 我 们 还 涵盖 了 诸如 时 钟 中 断 、 时 钟 节 
拍 、HZ 以 及 jifhies 等 概念 。 

我 们 考 峙 了 定时 器 的 实现 ， 了 解 了 如 何 把 这 些 用 到 自己 的 内 核 代码 中 。 本 章 最 后 ， 我 们 浏览 
了 开发 者 用 于 延迟 的 其 他 方法 。 

尔 写 的 大 多 数 内 核 代码 都 需要 对 时 间 及 其 走 过 的 时 间 有 一 些 理解 。 而 最 大 的 可 能 是 ， 只 要 你 
编写 驱动 程序 ， 就 需要 处 理 内 核定 时 器 。 与 其 让 时 间 悄 悄 汐 走 ， 还 不 如 阅读 本 章 。 





第 42 章 
内 存 管 理 


在 内 核 里 分 配 内 存 可 不 像 在 其 他 地 方 分 配 内 存 那么 容易 。 造 成 这 种 局 面 的 因素 很 多 。 从 根本 
上 讲 ， 是 因为 内 核 本 身 不 能 像 用 户 空 间 那样 奢侈 地 使 用 内 存 。 内 核 与 用 户 空间 不 同 ， 它 不 具备 这 
种 能 力 ， 它 不 支持 简单 便捷 的 内 存 分 配方 式 。 比 如 ， 内 核 一 般 不 能 睡眠 。 此 外 ， 处 理 内 存 分 配 错 
误 对 内 核 来 说 也 绝 非 易 事 。 正 是 由 于 这 些 限制 ， 再 加 上 内 存 分 配 机 制 不 能 太 复 杂 ， 所 以 在 内 核 中 
获取 内 存 可比 在 用 尸 空 间 复 杂 得 多 。 不 过 ， 从 程序 开发 者 角度 来 看 ， 也 不 是 说 内 核 的 内 存 分 配 就 
困难 得 不 得 了 ， 只 是 和 用 户 空间 中 的 内 存 分 配 不 太一 样 而 已 。 

本 章 讨论 的 是 在 内 核 之 中 获取 内 存 的 方法 。 在 深入 研究 实际 的 分 配 接 口 之 前 ， 我 们 需要 理解 
内 核 是 如 何 管理 内 存 的 。 


12.1 页 


内 核 把 物理 页 作为 内 存 管理 的 基本 单位 。 尽 管 处 理 器 的 最 小 可 寻 址 单位 通常 为 字 《 甚 至 字 
广 )， 但 是 ， 内 存 管 理 单元 MMU， 管理 内 存 并 把 虚拟 地 址 转换 为 物理 地 址 的 硬件 ) 通常 以 页 为 
单位 进行 处 理 。 正 因为 如 此 ，MMU 以 页 (page〉 大 小 为 单位 来 管理 系统 中 的 页 表 ( 这 也 是 页 表 
名 的 来 由 )。 从 虚拟 内 存 的 角度 来 看 ， 页 就 是 最 小 单位 。 

在 第 19 章 中 我 们 将 会 看 到 ， 体 系 结构 不 同 ， 支 持 的 页 大 小 也 不 尽 相 同 ， 还 有 些 体系 结构 其 
至 支持 几 种 不 同 的 页 大 小 。 大 多 数 32 位 体系 结构 支持 4KB 的 页 ， 而 64 位 体系 结构 一 般 会 支持 
8KB 的 页 。 这 就 意味 着 ， 在 支持 4KB 页 大 小 并 有 1GB 物理 内 存 的 机 器 上 ， 物 理 内 存 会 锌 划分 为 
262144 个 页 。 

内 核 用 struct page 结构 表示 系统 中 的 每 个 物理 页 ， 该 结构 位 于 <linux/mm _types.h 中 一 一 我 
简化 了 定义， 去 除了 两 个 容易 混 请 我 们 讨论 主题 的 联合 结构 体 : 


struct page | 
unsigned long flags; 
atomic t _Count ; 
atomic t _mapcount ; 
unsigned long private; 
atruct address space *mapping; 
Pgoff 七 index; 
struct list head lru; 
VOl1Q yirtual:; 


} ; 
让 我 们 看 一 下 其 中 比较 重要 的 域 。flag 域 用 来 存放 页 的 状态 。 这 些 状 态 包括 页 是 不 是 用 的， 
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是 不 是 被 锁定 在 内 存 中 等 。flag 的 每 一 位 单独 表示 一 种 状态 ， 所 以 它 至 少 可 以 同时 表示 出 32 种 
不 同 的 状态 。 这 些 标志 定义 在 <linux/page-flags.h> 中 。 

_count 域 存放 页 的 引用 计数 一 一 也 就 是 这 一 页 被 引用 了 多 少 次 。 当 计数 值 变 为 -1 时 ， 就 
说 明 当 前 内 核 并 没有 引用 这 一 页 ， 于 是 ， 在 新 的 分 配 中 就 可 以 使 用 它 。 内 核 代码 不 应 当 直 接 检 
查 读 域 ， 而 是 调用 page_count() 函数 进行 检查 ， 访 函数 崔 一 的 参数 就 是 page 结构 。 当 页 空闲 时 ， 
尽管 该 结构 内 部 的 _count 值 是 负 的 ， 但 是 对 page_count() 函数 而 言 ， 返 回 0 表 示 页 空间， 返回 
一 个 正 整 数 表示 页 在 使 用 。 一 个 页 可 以 由 页 缓存 使 用 (这 时 ，mapping 域 指向 和 这 个 页 关联 的 
addresss_space 对 象 )， 或 者 作为 私有 数据 (由 private 指向 )， 或 者 作为 进程 页 表 中 的 映射 。 

Virtual 域 是 页 的 虚拟 地 址 。 通 常情 况 下 ， 它 就 是 页 在 虚拟 内 存 中 的 地 址 。 有 些 内 存 ( 即 所 谓 
的 高 端 内 存 ) 并 不 永久 地 映射 到 内 核 地 址 空间 上 。 在 这 种 情况 下 ， 这 个 域 的 值 为 NULL， 需 要 的 
时 候 ， 必 须 动 态 地 映射 这 些 页 。 稍 后 我 们 将 讨论 高 端 内 存 。 

必须 要 理解 的 一 点 是 page 结构 与 物理 页 相关 ， 而 并 非 与 虚拟 页 相关 。 因 此 ， 该 结构 对 页 的 
描述 只 是 短暂 的 。 即 使 页 中 所 包含 的 数据 继续 存在 ， 由 于 变换 等 原因 ， 它 们 也 可 能 并 不 再 和 同 
一 个 page 结构 相关 联 。 内 核 仅 仅 用 这 个 数据 结构 来 描述 当前 时 刻 在 相关 的 物理 页 中 存放 的 东西 。 
这 种 数据 结构 的 目的 在 于 描述 物理 内 存 本 身 ， 而 不 是 描述 包含 在 其 中 的 数据 。 

内 核 用 这 一 结构 来 管理 系统 中 所 有 的 页 ， 因 为 内 核 需要 知道 一 个 页 是 否 空间 (也 就 是 页 有 
没有 被 分 配 )。 如 果 页 已 经 被 分 配 ， 内 核 还 需要 知道 谁 拥 有 这 个 页 。 拥 有 者 可 能 是 用 户 空间 进程 、 
动态 分 配 的 内 核 数据 、 静 态 内 核 代 码 或 页 高 速 缓存 等 。 

系统 中 的 每 个 物理 页 都 要 分 配 一 个 这 样 的 结构 体 ， 开 发 者 和 常常 对 此 感到 惊讶 。 他 们 会 想 
“这 得 浪费 多 少 内 存 呀 ”! 让 我 们 来 算 算 对 所 有 这 些 页 都 这 么 做 ， 到 底 要 消耗 掉 多 少 内 存 。 就 算 
struct page 占 40 字 节 的 内 存 吧 ， 假 定 系 统 的 物理 页 为 8SKB 大 小 ， 系 统 有 4GB 物理 内 存 。 那 么 ， 
系统 中 共有 页 面 524 288 个 , 而 描述 这 么 多 页 面 的 page 结构 体 消 耗 的 内 存 只 不 过 是 20MB ; 也 许 
绝对 值 不 小 ， 但 是 相对 系统 4GB 内 存 而 言 ， 仅 是 很 小 的 一 部 分 罢了 。 因 此 ， 要 管理 系统 中 这 人 么 
多 物理 页 面 ， 这 个 代价 并 不 算 太 高 。 


12.2 区 


由 于 硬件 的 限制 ， 内 核 并 不 能 对 所 有 的 页 一 视 同 仁 。 有 些 页 位 于 内 存 中 特定 的 物理 地 址 上 ， 
所 以 不 能 将 其 用 于 一 些 特定 的 任务 。 由 于 存在 这 种 限制 ， 所 以 内 核 把 页 划分 为 不 同 的 区 (zone)。 
内 核 使 用 区 对 具有 相似 特性 的 页 进行 分 组 。Linux 必须 处 理 如 下 两 种 由 于 硬件 存在 缺陷 而 引起 的 
内 存 寻 址 问题 : 
* 一 些 硬件 只 能 用 某 些 特定 的 内 存 地址 来 执行 DMA (直接 内 存 访问 )。 
* 一 些 体系 结构 的 内 存 的 物理 寻 址 范围 比 虚 拟 寻 址 范围 大 得 多 。 这 样 ， 就 有 一 些 内 存 不 能 永 
久 地 映射 到 内 核 空间 上 。 
因为 存在 这 些 制 约 条 件 ，Linux 主要 使 用 了 四 种 区 : 
* ZONE_DMA 一 一 这 个 区 包含 的 页 能 用 来 执行 DMA 操作 。 
* ZONE_DMA32 一 一 和 ZOME_DMA 类 似 ， 该 区 包含 的 页 面 可 用 来 执行 DMA 操作 ; 而 和 
ZONE_DMA 不 同 之 处 在 于 ， 这 些 页 面 只 能 被 32 位 设备 访问 。 在 某 些 体系 结构 中 ， 该 区 将 
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比 ZONE DMA 更 大 。 

“ZONE_ NORMAL 一 一 这 个 区 包含 的 都 是 能 正常 映射 的 页 。 

* ZONE_HIGHEM 一 一 这 个 区 包含 “高 端 内 存 ”， 其 中 的 页 并 不 能 永久 地 上 映射 到 内 核 地 址 空间 。 

这 些 区 (还 有 两 种 不 大 重要 的 ) 在 <linux/mmzone.h> 中 定义 。 

区 的 实际 使 用 和 分 布 是 与 体系 结构 相关 的 。 例 如 ， 某 些 体系 结构 在 内 存 的 任何 地 址 上 执行 
DMA 都 没有 问题 。 在 这 些 体系 结构 中 ，ZONE_DMA 为 空 ，ZONE_NORMAL 就 可 以 直接 用 于 分 
配 。 与 此 相反 ， 在 x86 体系 结构 上 ，ISA 设备 就 不 能 在 整个 32 位 9S 的 地 址 空间 中 执行 DMA， 因 
为 ISA 设备 只 能 访问 物理 内 存 的 前 16MB。 因 此 ，ZONE_DMA 在 x86 上 包含 的 页 都 在 0-16MB 
的 内 存 范围 里 。 

ZONE_HIGHMEM 的 工作 方式 也 差不多 。 能 否 直 接 映 射 取决 于 体系 结构 。 在 32 位 x86 系统 
上 ，ZONE_HIGHMEM 为 高 于 896MB 的 所 有 物理 内 存 。 在 其 他 体系 结构 上 ， 由 于 所 有 内 存 都 被 
直接 映射 ， 所 以 ZONE_HIGHMEM 为 空 。ZONE_HIGHMEM 所 在 的 内 存 就 是 所 谓 的 高 端 内 存 是 
(high memory )。 系 统 的 其 余 内 存 就 是 所 谓 的 低 端 内 存 (low memory )。 

前 两 个 区 各 取 所 需 之 后 ， 剩 余 的 就 由 ZONE_NORMAL 区 独 享 了 。 在 x86 上 , ZONE_ 
NORMAL 是 从 16MB 到 896MB 的 所 有 物理 内 存 。 在 其 他 (更 幸运 ) 的 体系 结构 上 , ZONE_ 
NORMAL 是 所 有 的 可 用 物理 内 存 。 表 12-1 是 每 个 区 及 其 在 x86-32 上 所 占 页 的 列表 。 


表 12-1 x86-32 上 的 区 


E PET 
ZONELDMA ET 
ZONE NORNMAL CT 
ZONE_HGHMEM 96 


Linux 把 系统 的 页 划分 为 区 ， 形 成 不 同 的 内 存 池 ， 这 样 就 可 以 根据 用 途 进 行 分 配 了 。 例 如 ， 
ZONE_DMA 内 存 池 让 内 核 有 能 力 为 DMA 分 配 所 需 的 内 存 。 如 果 需 要 这 样 的 内 存 ， 那 么 ， 内 核 
就 可 以 从 ZONE_DMA 中 按照 请 求 的 数目 取出 页 。 注 意 ， 区 的 划分 没有 任何 物理 意义 ， 这 只 不 过 
是 内 楼 为 了 管理 页 而 采取 的 一 种 逻辑 上 的 分 组 。 

某 些 分 配 可 能 需要 从 特定 的 区 中 获取 页 ， 而 另外 一 些 分 配 则 可 以 从 多 个 区 中 获取 页 。 比 如 ， 
尽管 用 于 DMA 的 内 存 必 须 从 ZONE_DMA 中 进行 分 配 ， 但 是 一 般 用 途 的 内 存 却 既 能 从 ZONE_ 
DMA 分 配 ， 也 能 从 ZONE_NORMAL 分 配 ， 不 过 不 可 能 同时 从 两 个 区 分 配 ， 因 为 分 配 是 不 能 跨 
区 界限 的 。 当 然 ， 内 核 更 希望 一 般 用 途 的 内 存 从 常规 区 分 配 ， 这 样 能 节省 ZONE_DMA 中 的 页 ， 
保证 福 足 DMA 的 使 用 需求 。 但 是 ， 如 果 可 供 分 配 的 资源 不 够 用 了 如果 内 存 已 经 变 得 很 少 了 )， 
那么 ， 内 核 就 会 去 占用 其 他 可 用 区 的 内 存 。 

不 是 所 有 的 体系 结构 都 定义 了 全 部 区 ， 有 些 64 位 的 体系 结构 ， 如 Intel 的 x86-64 体系 结构 


日 ”有些 精 粒 的 PCI 设备 只 能 在 24 位 地 址 空间 内 执行 DMA 操作 。 
目 Linux 的 高 端 内 存 和 DOS 的 高 端 内 存 没 有 关系 ，DOS 的 高 端 内 存 是 围绕 DOS 和 x86 的 “ 实 模式 ”的 空间 范 
围 限制 而 言 的 。 
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可 以 映射 和 处 理 64 位 的 内 存 空 间 ， 所 以 x86-64 没有 ZONE_HIGHMEM 区 ， 所 有 的 物理 内 存 都 
处 于 ZONE DMA 和 ZONE NORMAL 区 。 
每 个 区 都 用 struct zone 表示 ， 在 <linux/mmzone.h> 中 定义 ; 


struct zone { 


unsigned long watermark [NR WMARK] ; 
unsigned long lowmem reserve [MAX NR 2Z20NES]; 
struct per cpu pageset pageset [NR CPUS]; 

apinlock t lock; 

struct free area free area [MAX ORDER] 

spinlock t lru lock; 


struct zone lru { 

struct list head list; 

unsigned long nr Saved scan; 
} lrulNR LRU LISTS] ; 
struct zone reclaim stat reclaim etat.; 


unsigned long pages scanned; 
unsigned long flags; 
atomic long 七 vm stat [NR VM ZONE STAT ITEMS]; 
int prev priority; 
unsigned int inactive ratio; 
Wait queue head 七 *wait table; 
unsigned long wait table hash nr entries,; 
unsigned long wait table bits; 
struct pglist data *zone pgdat;} 
unsigned long zo0ne start pfn; 
unsigned long spanned pages; : 
Unsigned long present pages; 
const char *name; 
}; 
这 个 结构 体 很 大 ， 但 是 ， 系 统 中 只 有 三 个 区 ， 因 此 ， 也 只 有 三 个 这 样 的 结构 。 让 我 们 看 一 下 
其 中 一 些 重要 的 域 。 


lock 域 是 一 个 自 旋 锁 ， 它 防止 该 结构 被 并 发 访问 。 注 意 ， 这 个 域 只 保护 结构 ， 而 不 保护 驻 
留 在 这 个 区 中 的 所 有 页 。 没 有 特定 的 锁 来 保护 单个 页 但是， 部 分 内 核 可 以 锁 住 在 页 中 驻 留 的 
数据 。 

watermark 数组 持 有 该 区 的 最 小 值 、 最 低 和 最 高 水 位 值 。 内 核 使 用 水 位 为 每 个 内 存 区 设置 合 
适 的 内 存 销 耗 基准 。 该 水 位 随 空闲 内 存 的 多 少 而 变化 。 

name 域 是 一 个 以 NULL 结束 的 字符 串 表 示 这 个 区 的 名 字 。 内 核 启动 期 间 初 始 化 这 个 值 ， 共 
代码 位 于 mm/page alloc.c 中 。 三 个 区 的 名 字 分 别 为 “DMA”、“Normal” 和 “HighMem”。 


12.3 ”获得 页 


我 们 已 经 对 内 核 如 何 管理 内 存 〈 页 、 区 等 ) 有 所 了 解 了 ， 现 在 让 我 们 看 一 下 和 内核 实现 的 接 
口 ， 我 们 正 是 通过 这 些 接口 在 内 核 内 分 配 和 释放 内 存 的 。 
内 核 提供 了 一 种 请 求 内 存 的 底层 机 制 ， 并 提供 了 对 它 进 行 访问 的 几 个 接口 。 所 有 这 些 接口 都 
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以 页 为 单位 分 配 内 存 ， 定 义 于 <linux/gfp.h> 中 。 最 核心 的 函数 是 : 

struct page * alloc pages (gfp t gfp mask, unsigned int order) 

该 函数 分 配 2"”” (1<<order) 个 连续 的 物理 页 ， 并 返回 一 个 指针 ， 该 指针 指向 第 一 个 页 的 
page 结构 体 ; 如 果 出 错 ， 就 返回 NULL。 在 12.4 节 我 们 再 研究 gtt_t 类 型 和 gf_mask 参数 。 你 可 
以 用 下 面 这 个 函数 把 给 定 的 页 转换 成 它 的 逻辑 地 址 : 

void * page address {struct page *page) 

该 国 数 返 回 一 个 指针 ， 指 加 给 定 物理 页 当前 所 在 的 还 辑 地 址 。 如 果 你 无 须 用 到 struct page， 
你 可 以 调用 : 

unsigned long get free pages (gfp t gfp mask, unsigned int order) 

这 个 函数 与 alloc_pages() 作用 相同 ， 不 过 它 直接 返回 所 请 求 的 第 一 个 页 的 逻辑 地 址 。 因 为 页 
是 连续 的 ， 所 以 其 他 页 也 会 紧 随 其 后 。 

如 果 你 只 需 一 页 ， 就 可 以 用 下 面 两 个 封装 好 的 函数 ， 它 能 让 你 少 敲 几 下 键盘 : 


struct page * alloc page (gfp 七 gfp mask) 
unsigqned long get free pagel(lgfp t gfp mask) 


这 两 个 国 数 与 其 兄弟 畏 数 工作 方式 相同 ， 只 不 过 传递 给 order 的 值 为 0 (2 三 1 页 )。 


12.3.1 获得 填充 为 0 的 页 

如 采 你 需要 让 返回 的 页 的 内 容 全 为 0， 请 用 下 面 这 个 函数 : 

unsigned long get zeroed page (unsigned int gfp mask)} 

这 个 国 数 与 _ get_free_ pagesQ 工作 方式 相同 ， 只 不 过 把 分 配 好 的 页 都 填充 成 了 0 一 一 字 市 中 
的 每 一 位 都 要 取消 设置 。 如 果 分 配 的 页 是 给 用 户 空 间 的 ， 这 个 函数 就 非常 有 用 了 。 虽 说 分 配 好 
的 页 中 应 该 包含 的 都 古 随 机 产生 的 垃圾 信息 ， 但 其 实 这 些 信息 可 能 并 不 古 完全 随机 的 一 一 它 很 
可 能 “随机 地 ”包含 某 些 敏感 数据 。 用 户 空 间 的 页 在 返回 之 前 ， 所 有 数据 必须 填充 为 0， 或 做 
其 他 清理 工作 ， 在 保障 系统 安全 这 一 点 上 ， 我 们 决 不 妥协 。 表 12-2 是 所 有 底层 的 页 分 配方 法 
的 列表 。 

表 12-2 低级 页 分 配方 法 


标 志 描 述 
alloc page(gfp_ mask) 只 分 配 一 页 ， 返 回 指向 页 结构 的 指针 
alloc pages(gfp mask,order) 分 配 2™™ 个 页 ， 返回 指向 第 一 页 页 结构 的 指针 
get free papge(gfp mask) 只 分 配 一 页 ， 返 回 指向 其 还 辑 地址 的 指针 
_ Eet free pages(gfp_mask,order) 分 配 2™* 页 ， 返 回 指向 第 一 页 逻辑 地 址 的 指针 


Bet_zeroed page(gfp_mask) 上 只 分 配 一 页 ， 让 其 内 容 填 充 0， 运 回 指向 其 逻辑 地 址 的 指针 
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12.3.2 ”释放 页 
当 你 不 再 需要 页 时 可 以 用 下 面 的 函数 释放 它们 : 


void free pages lstruct page *page, unsigned int order) 
void free pages (unsigned long addr, unsigned int order) 
void free page (unsigned long addr) 


释放 页 时 要 谨慎 ， 只 能 释放 属于 你 的 页 。 传 递 了 错误 的 struct page 或 地 址 ， 用 了 错误 的 
order 值 ， 这 些 都 可 能 导致 系统 崩 祥 。 请 记 住 ， 内 核 是 完全 信赖 自 己 的 。 这 点 与 用 户 空 间 不 同 ， 
如 果 你 有 非法 操作 ， 内 核 会 开 开心 心地 把 自己 挂 起 来 ， 停 止 运 行 。 

让 我 们 看 一 个 例子 。 其 中 ， 我 们 想得到 8 个 页 : 


unsigned long page; 


Page = get free pages (GFP KERNEL, 3); 

if (lpage){ 
/* 设 有 是 够 的 内 存 : 你 必须 处 理 这 种 错误 ! */ 
return -ENOMEM; 


} 
/* “page” 现 在 指向 8 个 连续 页 中 第 1 个 页 的 地 址 . . .*/ 
在 此 ， 我 们 使 用 完 这 8 个 页 之 后 释放 它们 : 


free Pages (page, 3);} 


上 

* 页 现在 已 经 被 释放 了 ， 我 们 不 度 读 再 访问 
* 存放 在 “page” 中 的 地 址 了 

wj 


GFP_KERNEL 参数 是 gfp_mask 标志 的 一 个 例子 。 前 面 我 们 已 经 简要 讨论 过 。 

调用 _get_free_ pages0O 之 后 要 注意 进行 错误 检查 。 内 核 分 配 可 能 失败 ， 因 此 你 的 代码 必须 进 
行 检查 并 做 相应 的 处 理 。 这 意味 在 此 之 前 ， 你 所 做 的 所 有 工作 可 能 前 功 尽 弃 ， 甚 至 还 需要 回归 到 
原来 的 状态 。 正 因为 如 此 ， 在 程序 开始 时 就 先进 行内 存 分 配 是 很 有 意义 的 ， 这 能 让 错误 处 理 得 容 
易 一 点 。 如 果 你 不 这 人 么 做 ， 那 么 在 你 想 要 分 配 内 存 的 时 候 如 果 失 败 了 ， 局 面 可 能 就 难以 控制 了 。 

当 你 需要 以 页 为 单位 的 一 族 连续 物理 页 时 ， 尤 其 是 在 你 只 需要 一 两 页 时 ， 这 些 低级 页 函数 很 
有 用 。 对 于 常用 的 以 字 节 为 单位 的 分 配 来 说 ， 内 核 提供 的 函数 是 kmallocO。 


12.4 kmalloc() 


kmalloc() 销 数 与 用 户 空 间 的 malloc0 一 族 函 数 非 芝 类似， 只 不 过 它 多 了 一 个 fags 参数 。 
kmalloc() 函数 是 一 个 简单 的 接口 ， 用 它 可 以 获得 以 字 节 为 单位 的 一 块 内 核 内 存 。 如 果 你 需要 
整个 页 ， 那 么 ， 前 面 讨论 的 页 分 配 接口 可 能 是 更 好 的 选择 。 但 是 ， 对 于 大 多 数 内核 分 配 来 说 ， 
kmalloc() 接口 用 得 更 多 。 

kmalloc() 在 <linux/slab.h> 中 声明 : 


void * kmalloc {size t size, gfp t flags) 
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这 个 函数 返回 一 个 指向 内 存 块 的 指针 ， 其 内 存 块 至 少 要 有 size 大 小 。 所 分 配 的 内 存 区 在 物 
理 上 是 连续 的 。 在 出 错时 ， 它 返回 NULL。 除 非 没 有 足够 的 内 存 可 用 ， 否 则 内 核 总 能 分 配 成 功 。 
在 对 kmalloc() 调用 之 后 ， 你 必须 检查 返回 的 是 不 是 NULL， 如 果 是 ， 要 适当 地 处 理 错误 。 

让 我 们 看 一 个 例子 。 我 们 随便 假定 存在 一 个 dog 结构 体 ， 现 在 需要 为 它 动 态 地 分 配 足够 的 空间 : 

struct dog *p; 

p = kmalloc(sizeof (struct dog), GFP KERNEL); 

if {1p) 

/* 处 理 错误 ... */ 

如 果 kmalloc() 调用 成 功 ， 那 么 ，ptr 现在 指向 一 个 内 存 块 ， 内 存 块 的 大 小 至 少 为 所 请 求 的 大 
小 。GFP KERNEL 标志 表示 在 试图 获取 内 存 并 返回 给 kmalloc() 的 调用 者 的 过 程 中 ， 内 存 分 配器 
将 要 采取 的 行为 。 


12.4.1 gfp_mask 标志 


我 们 已 经 看 过 了 几 个 例子 ， 发 现 不 管 是 在 低级 页 分 配 函 数 中 ， 还 是 在 kmalloc() 中 ， 都 用 到 
了 分 配器 标志 。 现 在 ， 我 们 就 深入 讨论 一 下 这 些 标志 。 

这 些 标志 可 分 为 三 类 : 行为 修饰 符 、 区 修饰 符 及 类 型 。 行 为 修饰 符 表 示 内 核 应 当 如 何 分 配 所 需 
的 内 存 。 在 某 些 特定 情况 下 ， 只 能 使 用 某 些 特定 的 方法 分 配 内 存 。 例 如 ， 中 断 处 理 程 序 就 要 求 内 核 
在 分 配 内存 的 过 程 中 不 能 睡眠 〈 因 为 中 断 处 理 程序 不 能 被 重新 调度 )。 区 修饰 符 表 示 从 哪儿 分 配 内 
存 。 前 面 我 们 已 经 看 到 ， 内 核 把 物理 内 存 分 为 多 个 区 ， 每 个 区 用 于 不 同 的 目的 。 区 修饰 符 指明 到 底 
从 这 些 区 中 的 哪 一 区 中 进行 分 配 。 类 型 标志 组 合 了 行为 修饰 符 和 区 修饰 符 ， 将 各 种 可 能 用 到 的 组 合 
归纳 为 不 同类 型 ， 简 化 了 修饰 符 的 使 用 ; 这 样 ， 你 只 需 指定 一 个 类 型 标志 就 可 以 了 。GFP_KERNEL 
就 是 一 种 类 型 标志 ， 内 核 中 进程 上 下 文 相 关 的 代码 可 以 使 用 它 。 我 们 来 看 一 下 这 些 标志 。 

1. 行为 修饰 符 

所 有 这 些 标志 ， 包 括 行为 描述 符 都 是 在 <linux/gfp.h> 中 声明 的 。 不 过 ， 在 <linux/slab.h> 中 
包含 有 这 个 头 文件 ， 因 此 ， 你 一 般 不 必 直 接 包 含 引 用 它 。 实 际 上 ， 一 般 只 使 用 类 型 修饰 符 就 够 
了 ， 我 们 随后 会 看 到 这 点 。 因 此 ， 最 好 对 每 个 标志 都 有 所 了 解 。 表 12-3 是 行为 修饰 符 的 列表 。 


表 12-3 行为 修饰 符 
GFP WAIT 分 配 玫 可 以 睡 虐 
_GFP HIGH 分 配 此 可 以 访问 紧急 事件 缓冲 地 
_GFP_IO 分 配器 可 以 局 动 磁盘 IO 
_GFPFS | 分 配器 可 以 启动 文件 系统 VO 
_ GFP_COLD 分 配器 应 读 使 用 高 速 缓存 中 快要 淘汰 出 去 的 页 
_ GFP NOWARN 分 配器 将 不 打印 失败 警告 
_GFP REPEAT 分 配器 在 分 配 失 败 时 重复 进行 分 配 ， 但 是 这 次 分 配 还 存在 失败 的 可 能 


_GFP_NOFALL : 分 配器 将 无 限 地 重复 进行 分 配 。 分 配 不 能 失败 
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( 续 ) 
_GFP_ NORETRY 分 配器 在 分 配 失 败 时 绝 不 会 重新 分 配 
_GFP NO GROW 由 slab 层 内 部 使 用 
_ GFP_COMP 添加 混合 页 元 数据 ， 在 hugetlb 的 代码 内 部 使 用 
可 以 同时 指定 这 些 分 配 标志 。 例 如 : 
ptr = kmalloc(size, GFP WAIT | GFP IO | _GFP FS); 


说 明 页 分 配器 (最 终 调 用 alloc_pages0) 在 分 配 时 可 以 阻塞 、 执 行 WO， 在 必要 时 还 可 以 执 
行文 件 系 统 操 作 。 这 就 让 内 核 有 很 大 的 自由 度 ， 以 便 它 尽 可 能 找到 空 用 的 内 存 来 福 足 分 配 请 求 。 

大 多 数 分 配 都 会 指定 这 些 修饰 符 ， 但 一 般 不 是 这 样 直接 指定 ， 而 是 采用 我 们 随后 讨论 的 类 型 
标志 。 别 担心 ， 你 不 会 在 分 配 内 存 时 为 怎样 使 用 这 些 标志 而 犯愁 的 ! 

2. 区 修饰 符 

区 修饰 符 表 示 内 存 区 应 当 从 何 处 分 配 。 通 常 ， 分 配 可 以 从 任何 区 开始 。 不 过 ， 内 核 优先 从 
ZONE_NORMAL 开始 ， 这 样 可 以 确保 其 他 区 在 需要 时 有 足够 的 空闲 页 可 供 使 用 。 

实际 上 只 有 两 个 区 修饰 符 ， 因 为 除了 ZONE _ NORMAL 之 外 只 有 两 个 区 (默认 都 是 从 
ZONE _ NORMAL 区 进行 分 配 )。 表 12-4 是 区 修饰 符 的 列表 。 


表 12-4 区 收 饰 符 
标 志 描 述 
_GFP DMA 从 ZONE_DMA 分 配 
_ GFP DMA32 只 在 ZONE_DMA32 分 配 
_ GFP_HIGHMEM 从 ZONE_HIGHMEM 或 ZONE_NORMAL 分 配 


指定 以 上 标志 中 的 一 个 就 可 以 改变 内 核 试图 进行 分 配 的 区 。_GFP_DMA 标志 强制 内 核 从 
ZONE_ DMA 分 配 。 这 个 标志 在 说 ， 有 了 这 种 奇怪 的 标识 ， 我 绝对 可 以 拥有 进行 DMA 的 内 存 。 
相反 ， 如 果 指 定 ” GFP HIGHEM 标志 ， 则 从 ZONE HIGHMEM (优先 ) 或 ZONE NORMAL 
分 配 。 这 个 标志 在 说 ， 我 可 以 使 用 高 端 内 存 ， 因 此 ， 我 可 以 是 一 个 玩偶 ， 给 你 退还 一 些 内 存 ， 但 
是 ， 常 规 内 存 还 照常 工作 。 如 果 没 有 指定 任何 标志 ， 则 内 核 从 ZONE_DMA 或 ZONE_ NORMAL 
进行 分 配 ， 当 然 优先 从 ZONE_NORMAL 进行 分 配 。 不 管区 标志 说 什么 了 ， 只 要 它 行为 正常 ， 我 
就 不 关心 了 。 

不 能 给 _get_free_pages() 或 kalloc() 指定 ZONE_HIGHMEM， 因 为 这 两 个 函数 返回 的 都 是 逻 
辑 地 址 ， 而 不 是 page 结构 ， 这 两 个 函数 分 配 的 内 存 当 前 有 可 能 还 没有 映射 到 内 核 的 虚拟 地 址 空 
间 ， 因 此 ， 也 可 能 根本 就 没有 逻辑 地 址 。 只 有 alloc_pages() 才能 分 配 高 端 内 存 。 实 际 上 ， 你 的 分 
配 在 大 多 数 情 况 下 都 不 必 指 定 修饰 符 ，ZONE_NORMAL 就 足 琳 。 

3. 类 型 标志 

类 型 标志 指定 所 需 的 行为 和 区 描述 符 以 完成 特殊 类 型 的 处 理 。 正 因为 这 一 点 ， 内 核 代码 趋向 
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于 使 用 正确 的 类 型 标志 ， 而 不 是 一 味 地 指定 它 可 能 需要 用 到 的 多 个 描述 符 。 这 人 么 做 既 简 单 又 不 容 
易 出 错误 。 表 12-5 是 类 型 标志 的 列表 ， 而 表 12-6 显示 了 每 个 类 型 标志 与 哪些 修饰 符 相 关联 。 


表 12-5 类 型 标志 
标 志 描 述 
GFP ATOMIC 这 个 标志 用 在 中 断 处 理 程 序 、 下 半 部 、 持 有 自 旋 锁 以 及 其 他 不 能 睡眠 的 地 方 
i A 类 似 ， 不 同 之 处 在 于 ， 调 用 不 会 退 给 紧急 内 存 池 。 这 就 增加 了 内 存 分 配 失 败 
J 可 能 性 。 
这 种 分 配 可 以 阻塞 ， 但 不 会 启动 磁盘 IO。 这 个 标志 在 不 能 引发 更 多 磁盘 IO 时 能 阻塞 110 代 


GFP NOWAIT 


eh 码 ， 这 可 能 导致 令 人 不 恰 快 的 递归 

ee 这 种 分 配 在 必要 时 可 能 阻塞， 也 可 能 启动 破 诅 JO， 但 是 不 会 启动 文件 系统 近 作 。 这 个 标志 在 
- 你 不 能 再 启动 另 一 个 文件 系统 的 操作 时 ， 用 在 文件 系统 部 分 的 代码 中 

Opp CO， | 这 是 一 种 常规 分 本 方式， 可 能 会 阻塞 。 这 个 标志 在 睡眠 安 全 时 用 在 迹 程 上 下 文 代码 中 。 为 了 获 


得 调用 者 所 需 的 内 存 ， 内 核 会 尽力 而 为 。 这 个 标志 应 当 是 首选 标志 

GFP_USER 这 是 一 种 常规 分 配方 式 ， 可 能 会 阻塞 。 这 个 标志 用 于 为 用 户 空间 进程 分 配 内 存 时 
GFP_HIGHUSER | 这 是 从 ZONE_HIGHMEM 进行 分 配 ， 可 能 会 阻塞 。 这 个 标志 用 于 为 用 户 空间 进程 分 配 内 存 

这 是 从 ZONE_DAM 进行 分 配 。 需 要 获取 能 供 DMA 使 用 的 内 存 的 设备 驱动 程序 使 用 这 个 标志 ， 


人 通常 与 以 上 的 某 个 标志 组 合 在 一 起 使 用 
表 12-6 在 每 种 类 型 标志 后 隐 售 的 修饰 符 列 表 

标 ”二 修饰 符 标志 
GFP ATOMIC _ GFP_HIGH 
GFP NOWAIT 0 
GFP_NOIO _ GFP_ WAIT 
GFP NOFS (_ GFP_ WAIT|_GFP IO) 
GFP KERNEL (_ GFP WAIT| GFP IO| GFP FS) 
GFP USER (_ GFP WAIT| GFP IO| GFP FS) 
GFP_HIGHUSER (_ GFP WAIT| _GFP IO| GFP FS|_GFP HIGHMEM) 
GFP DMA _ GFP DMA 


让 我 们 看 一 下 最 常用 的 标志 以 及 你 什么 时 候 、 为 什么 需要 使 用 它们 。 内 核 中 最 常用 的 标志 
GFP KERNEL。 这 种 分 配 可 能 会 引起 睡眠 ， 它 使 用 的 是 普通 优先 级 。 因 为 调用 可 能 阻塞 ， 因 此 
这 个 标志 只 用 在 可 以 重新 安全 调度 的 进程 上 下 文中 (也 就 是 没有 锁 被 持 有 等 情况 )。 因 为 这 个 标 
志 对 内 核 如 何 获取 请 求 的 内 存 没 有 任何 约束 ， 所 以 内 存 分 配 成 功 的 可 能 性 很 高 。 

另 一 个 截然 相反 的 标志 是 GFP_ATOMIC。 因 为 这 个 标志 表示 不 能 睡眠 的 内 存 分 配 ， 因 此 想 
要 福 足 调用 者 获取 内 存 的 请 求 将 会 受到 很 严格 的 限制 。 即 使 没有 足够 的 连续 内 存 块 可 供 使 用 ， 内 
核 也 很 可 能 无 法 释放 出 可 用 内 存 来 ， 因 为 内 核 不 能 让 调用 者 睡 卢 。 相 反 ，GFP_KERNEL 分配 可 
以 让 调用 者 睡眠 、 交 换 、 刷 新 一 些 页 到 硬盘 等 。 因 为 GFP_ATOMIC 不 能 执行 以 上 任何 操作 ， 因 
此 与 GFP KERNEL 相 比 较 ， 它 分 配 成 功 的 机 会 较 小 〈 尤 其 在 内 存 短缺 时 )。 即 便 如 此 ， 在 当前 
代码 (例如 中 断 处 理 程序 、 软 中 断 和 tasklet〉 不 能 睡 卢 时 ， 也 只 能 选择 GFP_ATOMIC。 

在 以 上 两 种 标志 中 间 的 是 GFP_NOIO 和 GFP_NOFS。 以 这 两 个 标志 进行 的 分 配 可 能 会 引起 
阻塞 ， 但 它们 会 避免 执行 某 些 其 他 操作 。GFP_NOIO 分 配 绝 不 会 启动 任何 磁盘 IO 来 帮助 满足 
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请 求 。 而 GFP NOFS 可 能 会 启动 磁盘 IO， 但 是 它 不 会 启动 文件 系统 WO。 你 为 什么 需要 这 些 标 
志 ? 它们 分 别 用 在 某 些 低级 块 LO 或 文件 系统 的 代码 中 。 设 想 ， 如 果 文 件 系 统 代码 中 需要 分 配 内 
存 ， 但 没有 使 用 GFP NOFS。 这 种 分 配 可 能 会 引起 更 多 的 文件 系统 操作 ， 而 这 些 操作 又 会 导致 
另外 的 分 配 ， 从 而 再 引起 更 多 的 文件 系统 操作 ! 这 会 一 直 持 续 下 去 。 这 样 的 代码 在 调用 分 配器 的 
时 候 ， 必 须 确保 分 配器 不 会 再 执行 到 代码 本 身 ， 否 则 ， 分 配 就 可 能 产生 死 锁 。 也 别 紧 张 ， 内 核 使 
用 这 两 个 标志 的 地 方 是 极 少 的 。 

GFP_DMA 标志 表示 分 配器 必须 满足 从 ZONE_DMA 进行 分 配 的 请 求 。 这 个 标志 用 在 需要 
DMA 的 内 存 的 设备 驱动 程序 中 。 一 般 你 会 把 这 个 标志 与 GFP_ATOMIC 和 GEFP KERNEL 结合 起 
来 使 用 。 

在 你 编写 的 绝 大 多 数 代 码 中 ， 用 到 的 要 么 是 GFP_KERNEL， 要 么 是 GFP_ATOMIC 。 
表 12-7 是 通常 情形 和 所 用 标志 的 列表 。 不 管 使 用 哪 种 分 配 类 型 ， 你 都 必须 进行 检查 ， 并 对 
错误 进行 处 理 。 


表 12-7 ”什么 时 候 用 哪 种 标志 


情 形 相应 标志 
进程 上 下 文 ， 可 以 睡眠 使 用 GFP KERNEL 
进程 上 下 文 ， 不 可 以 睡眠 使 用 GFP_ATOMIC， 在 你 睡眠 之 前 或 之 后 以 GFP_KERNEL 执行 内 存 分 配 
中 断 处理 程 序 使 用 GFP_ATOMIC 
软 中 断 使 用 GFP_ATOMIC 
tasklet 使 用 GFP_ATOMIC 
需要 用 于 DMA 的 内 存 ， 可 以 睡眠 使 用 (GFP_DMA | GFP KERNEL) 


需要 用 于 DMA 的 内 存 ， 不 可 以 睡眠 使 用 (GFP DMA | GFP_ ATOMIC)， 或 在 你 睡眠 之 前 执行 内 存 分 配 


12.4.2 kfree() 
kmalloc() 的 另 一 端 就 是 kfree()，kfree() 声明 于 <linux/slab.h> 中 : 


void kfreelconst void *ptr) 


kfree() 函数 释放 由 kmalloc0 分 配 出 来 的 内 存 块 。 如 果 想 要 释放 的 内 存 不 是 由 kmalloc() 分 配 
的 ， 或 者 想 要 释放 的 内 存 早 就 被 释放 了 ， 比 如 说 释放 属于 内 核 其 他 部 分 的 内 存 ， 调 用 这 个 函数 
就 会 导致 严重 的 后 果 。 与 用 户 空 间 业 似 ， 分 配 和 回收 要 注意 配对 使 用 ， 以 避免 内 存 泄 漏 和 其 他 
bug。 注 意 ， 调 用 kfree (NULL ) 是 安全 的 。 

让 我 们 看 一 个 在 中 断 处 理 程序 中 分 配 内 存 的 例子 。 在 这 个 例子 中 ， 中 断 处 理 程序 想 分 配 一 个 
缓冲 区 来 保存 输入 数据 。BUF_SIZE 预定 义 为 以 字 节 为 单位 的 缓冲 区 长 度 ， 它 应 该 是 大 于 两 个 字 
节 的 。 

char *puf; 

buf = kmalloc{(BUF SIZE, GFP ATOMIC); 


if (!buf) 
/* 内 存 分 配 出 错 ! */ 
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之 后 ， 当 我 们 不 表 需 要 这 个 内 存 时 ， 别 忘 了 释放 它 : 


kfree{buf); 
12.5 vmalloc() 


vmalloc() 函数 的 工作 方式 类 似 于 kmalloc()， 只 不 过 前 者 分 配 的 内 存 虚 拟 地 址 是 连续 的 ， 而 
物理 地 址 则 无 须 连 续 。 这 也 是 用 户 空间 分 配 函 数 的 工作 方式 : 由 malloc() 返回 的 页 在 进程 的 虚拟 
地 址 空间 内 是 连续 的 ， 但 是 ， 这 并 不 保证 它们 在 物理 RAM 中 也 是 连续 的 。kmalloc() 函数 确保 页 
在 物理 地 址 上 是 连续 的 (虚拟 地 址 自然 也 是 连续 的 )。vmalloc() 函数 只 确保 页 在 虚拟 地 址 空间 内 
是 连续 的 。 它 通过 分 配 非 连续 的 物理 内 存 块 ， 再 “修正 ”页 表 ， 把 内 存 映 射 到 逻辑 地 址 空间 的 连 
续 区 域 中 ， 就 能 做 到 这 点 。 

大 多 数 情况 下 ， 只 有 硬件 设备 需要 得 到 物理 地 址 连续 的 内 存 。 在 很 多 体系 结构 上 ， 硬 件 设备 
存在 于 内 存 管理 单元 以 外 ， 它 根本 不 理解 什么 是 虚拟 地 址 。 因 此 ， 硬 件 设 备用 到 的 任何 内 存 区 都 
必须 是 物理 上 连续 的 块 ， 而 不 仅仅 是 虚拟 地 址 连续 上 的 块 。 而 仅 供 软 件 使 用 的 内 存 块 (例如 与 进 
程 相 关 的 缓冲 区 ) 就 可 以 使 用 只 有 虚拟 地 址 连续 的 内 存 块 。 但 在 你 的 编程 中 ， 根 本 察觉 不 到 这 种 
差异 。 对 内 核 而 言 ， 所 有 内 存 看 起 来 都 是 逻辑 上 连续 的 。 

尽管 在 某 些 情况 下 才 需 要 物理 上 连续 的 内 存 块 ， 但 是 ， 很 多 内 核 代码 都 用 kmalloc() 来 获 
得 内 存 ， 而 不 是 vmalloc()。 这 主要 是 出 于 性 能 的 考虑 。vmalloc0 函数 为 了 把 物理 上 不 连续 的 页 
转换 为 虚拟 地 址 空间 上 连续 的 页 ， 必 须 专门 建立 页 表 项 。 粳 糕 的 是 ， 通 过 vmalloc() 获得 的 页 必 
须 一 个 一 个 地 进行 映射 〈 因 为 它们 物理 上 是 不 连续 的 )， 这 就 会 导致 比 直 接 内 存 映射 大 得 多 的 
TLB 人 9 拌 动 。 因 为 这 些 原 因 ，vmalloe( 仅 在 不 得 已 时 才 会 使 用 一 一 典型 的 就 是 为 了 获得 大 块 内 存 . 
了 时， 例如 ， 当 模块 被 动态 插入 到 内 核 中 时 ， 就 把 模块 装载 到 由 vmalloc() 分 配 的 内 存 上 。 

vmalloc( 函数 声明 在 <linux/vmalloc.h> 中 ， 定 义 在 <mm/vmalloc.c> 中 。 用 法 与 用 户 空间 的 
malloc() 相同 : 


void * vmalloc (unsigned long size) 


该 函数 返回 一 个 指针 ， 指 问 逻 辑 上 连续 的 一 块 内 存 区 ， 其 大 小 至 少 为 size。 在 发 生 错误 时 ， 
函数 返回 NULL。 函 数 可 能 睡眠 ， 因 此 ， 不 能 从 中 断 上 下 文中 进行 调用 ， 也 不 能 从 其 他 不 允许 阻 
塞 的 情况 下 进行 调用 。 

要 释放 通过 vmalloc0 所 获得 的 内 存 ， 使 用 下 面 的 函数 : 


void viree (const void *addr)} 


这 个 函数 会 释放 从 addr 开始 的 内 存 块 ， 其 中 addr 是 以 前 由 vmalloc0 分 配 的 内 存 块 的 地 址 。 
这 个 函数 也 可 以 睡眠 ， 因 此 ， 不 能 从 中 源 上 下 文中 调用 。 它 没有 返回 值 。 
这 个 函数 用 起 来 比较 简单 : 


日 TLB (translation lookaside buffer) 是 一 种 硬 缓 镍 区 ， 很 多 体系 结构 用 它 来 缓存 虚拟 地 址 到 物理 地 址 的 映射 关 
系 。 它 极 大 地 提高 了 系统 的 性 能 ， 因 为 大 多 数 内 存 都 要 进行 虚拟 寻 址 。 
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char *buf;y 


buf = vmalloc(l6 * PAGE SIZE); /* get 16 pages #*/ 
if (lbuf) 
/* 错误 ! 不 能 分 配 内 存 */ 
A 
* buf 现在 指向 虚拟 地 址 连续 的 一 块 内 存 区 ， 其 大 小 至 少 为 16*PAGE_SIZE 


“7 


在 分 配 内 存 之 后 ， 一 定 要 释放 它 : 


vifree (buf); 
12.6 slab 层 


分 配 和 释放 数据 结构 是 所 有 内 棱 中 最 普遍 的 操作 之 一 。 为 了 便于 数据 的 频繁 分 配 和 回收 ， 编 
程 人 员 常 常会 用 到 空闲 链表 。 空 闲 链表 包含 可 供 使 用 的 、 已 经 分 配 好 的 数据 结构 块 。 当 代码 需要 
一 个 新 的 数据 结构 实例 时 ， 就 可 以 从 空闲 链表 中 抓 取 一 个 ， 而 不 需要 分 配 内 存 ， 再 把 数据 放 进 
去 。 以 后 ， 当 不 再 需要 这 个 数据 结构 的 实例 时 ， 就 把 它 放 回 空闲 链表 ， 而 不 是 释放 它 。 从 这 个 意 
义 上 说 ， 空 闲 链表 相当 于 对 象 高 速 缓存 一 一 快速 存储 频繁 使 用 的 对 象 类 型 。 

在 内 核 中 ， 空 闲 链表 面临 的 主要 问题 之 一 是 不 能 全 局 控制 。 当 可 用 内 存 变 得 紧缺 时 ， 内 核 无 
法 通知 每 个 空闲 链表 ， 让 其 收缩 缓存 的 大 小 以 便 释 放出 一 些 内 存 来 。 实 际 上 ， 内 核 根本 就 不 知道 
存在 任何 空闲 链表 。 为 了 弥补 这 一 缺陷 ， 也 为 了 使 代码 更 加 稳固 ，Linux 内 核 提供 了 slab 层 (也 
就 是 所 谓 的 slab 分 配器 )。slab 分 配器 扮演 了 通用 数据 结构 缓存 层 的 角色 。 

slab 分 配器 的 概念 首先 在 Sun 公司 的 SunOS 5.4 操作 系统 中 得 以 实现 日 。Linux 数据 结构 缓 
存 层 具有 同样 的 名 字 和 基本 设计 思想 。. 

slab 分 配器 试图 在 几 个 基本 原则 之 间 寻 求 一 种 平衡 : 

。 频繁 使 用 的 数据 结构 也 会 频繁 分 配 和 有 释放， 因此 应 当 缓存 它们 。 

* 频繁 分 配 和 回收 必然 会 导致 内 存 碎片 (难以 找到 大 块 连续 的 可 用 内 存 )。 为 了 避免 这 种 现 

象 ， 空 闪 链 表 的 缓存 会 连续 地 存放 。 因 为 已 释放 的 数据 结构 又 会 放 回 空闲 链表 ， 因 此 不 会 

导致 碎片 。 

* 回收 的 对 象 可 以 立即 投入 下 一 次 分 配 ， 因 此 ， 对 于 频繁 的 分 配 和 释放 ， 空 闲 链表 能 够 提高 

其 性 能 。 

* 如果 分 配器 知道 对 象 大 小 、 页 大 小 和 总 的 高 速 缓存 的 大 小 这 样 的 概念 ， 它 会 做 出 更 明智 的 

决策 。 

。 如 果 让 部 分 缓存 专属 于 单个 处 理 器 〈 对 系统 上 的 每 个 处 理 器 独立 而 唯一 )， 那 么 ， 分 配 和 

释放 就 可 以 在 不 加 SMP 锁 的 情况 下 进行 。 

“。 如 果 分 配器 是 与 NUMA 相关 的 ， 它 就 可 以 从 相同 的 内 存 节 点 为 请 求 者 进行 分 配 。 

*， 对 存放 的 对 象 进 行 着 色 (color)， 以 防止 多 个 对 象 映 射 到 相同 的 高 速 缓存 行 (cache line)。 

Linux 的 slab 层 在 设计 和 实现 时 充分 考虑 了 上 述 原则 。 


电 参看 J Bonwick 所 著 的 《The Slab Allocator ， An Object-Caching Kernel Memory Allocator}, USENIX, 1994, 
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12.6.1 slab 层 的 设计 


slab 层 把 不 同 的 对 象 划 分 为 所 谓 高 速 缓 存 组 ， 其 中 每 个 高 速 缓存 组 都 存放 不 同类 型 的 对 象 。 
每 种 对 象 类 型 对 应 一 个 高 速 缓存 。 例 如 ， 一 个 高 速 缓存 用 于 存放 进程 描述 符 〈task_struct 结构 的 
一 个 空闲 链表 )， 而 另 一 个 高 速 缓存 存放 索引 节点 对 象 〈stmuct inode)。 有 趣 的 是 ，kmalloc() 接口 
建立 在 slab 层 之 上 ， 使 用 了 一 组 通用 高 速 缓存 。 

然后 ， 这 些 商 速 缓存 又 被 划分 为 slab (这 也 是 这 个 子 系统 名 字 的 来 由 )。slab 由 一 个 或 多 个 物 
理 上 连续 的 页 组 成 。 一 般 情 况 下 ，slab 也 就 仅仅 由 一 页 组 成 。 每 个 高 速 缓 存 可 以 由 多 个 slab 组 成 。 

每 个 slab 都 包含 一 些 对 象 成 员 ， 这 里 的 对 象 指 的 是 被 缓存 的 数据 结构 。 每 个 slab 处 于 三 种 
状态 之 一 : 满 、 部 分 请 或 空 。 一 个 讽 的 slab 没有 空闲 的 对 象 (slab 中 的 所 有 对 象 都 已 被 分 配 )。 
一 个 空 的 slab 设 有 分 配 出 任何 对 象 《slab 中 的 所 有 对 象 都 是 空闲 的 )。 一 个 部 分 满 的 slab 有 一 些 
对 象 已 分 配 出 去 ， 有 些 对 象 还 空闲 着 。 当 内 核 的 某 一 部 分 需要 一 个 新 的 对 象 时 ， 先 从 部 分 满 的 
slab 中 进行 分 配 。 如 果 设 有 部 分 满 的 slab， 就 从 空 的 slab 中 进行 分 配 。 如 果 没 有 空 的 slab， 就 要 
创建 一 个 slab 了。 显然 ， 满 的 slab 无 法 满足 请 求 ， 因 为 它 根 本 就 没有 空闲 的 对 象 。 这 种 策略 能 
减少 碎片 。 

作为 一 个 例子 ， 让 我 们 考察 一 下 inode 结构 ， 读 结构 是 磁盘 索引 节点 在 内 存 中 的 体现 ( 参 
见 第 13 章 )。 这 些 数据 结构 会 频繁 地 创建 和 释放 ， 因 此 ， 用 slab 分 配器 来 管理 它们 就 很 有 必要 。 
因而 struct inode 就 由 inode_cachep 高 速 缓存 〈 这 是 一 种 标准 的 命名 规范 ) 进行 分 配 。 这 种 高 速 
缓存 由 一 个 或 多 个 slab 组 成 一 一 由 多 个 slab 组 成 的 可 能 性 大 一 些 ， 因 为 这 样 的 对 象 数量 很 大 。 
每 个 slab 包含 尽 可 能 多 的 struct inode 对 象 。 当 内 核 请 求 分 配 一 个 新 的 inode 结构 时 ， 内 核 就 从 部 
分 满 的 slab 或 空 的 slab (如 果 没 有 部 分 满 的 slab) 返回 一 个 指向 已 分 配 但 未 使 用 的 结构 的 指针 。 
当 内 核 用 完 inode 对 象 后 ，slab 分 配器 就 把 该 对 象 标记 为 空间 。 图 12-1 显示 了 高 速 绥 存 、slab 及 
对 象 之 间 的 关系 。 





图 12-1 高速 缓存 、slab 及 对 象 之 间 的 关系 
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每 个 高 速 缓 存 都 使 用 kmem _cache 结构 来 表示 。 这 个 结构 包含 三 个 链表 : slabs fnll、slabs 
partial 和 slabs_empty， 均 存放 在 kmem_list3 结构 内 , 该 结构 在 mm/slab.c 中 定义 。 这 些 链表 包含 
高 速 缓存 中 的 所 有 slab。slab 描述 符 struct slab 用 来 描述 每 个 slab ; 


struct Slab 1 


struct list head list; /* 满 、 部 分 满 或 空 链表 */ 
unsigned long colouroff; A/* slab 着 色 的 偏 移 最 */ 

void “Ss_mem; /* 在 glab 中 的 第 一 个 对 象 */ 
unsigned int inuse; /* 8lab 中 已 分 配 的 对 象 数 */ 
kmem bufctl t free; A/* 第 一 个 空 亲 对 象 〈《 如 果 有 的 话 ) */ 


} 


slab 描述 符 要 么 在 slab 之 外 另行 分 配 ， 要 么 就 放 在 slab 自身 开始 的 地 方 。 如 果 slab 很 小 ， 
或 者 slab 内 部 有 是 够 的 空间 容纳 slab 描述 符 ， 那 么 描述 符 就 存放 在 slab 里 面 。 
slab 分 配器 可 以 创建 新 的 slab， 这 是 通过 __get_free_pages() 低级 内 棱 页 分 配器 进行 的 : 


atatic void *kmem getpagesa (struct kmem cache *cachep, gfp t flags, int nodeid) 
{ 

struct page *page; 

Void *addr; 

int 1; 


flags |= cachep->9gfpflags:; 
if (likely (nodeid == -1)) | 
addr = (void*}) get free pages (flags, cachep->gfporder):} 
if (!addr) 
return NULL; 
page = Virt to pageladdr); 
} else { 
page = alloc pages node (nodeid, flagsa, cachep- >gfporder); 
if (lpage) 
return NULL:; 
addr = page address (page); 


| 


i = (1 << Cachep->o9tpordeIrl 
it (cachep->flags & SLAB RECLAIM ACCOUNT) 
atomic addli, &slab reclaim pages),; 
add page statelnr slab, i}); 
while (i--) | 
SetPageSlab (Page] ; 
Page++} 
} 
return addr; 


} 


该 函数 使 用 _ get_free_ pages0 来 为 高 速 缓存 分 配 足 够 多 的 内 存 。 该 函数 的 第 一 个 参数 就 指向 
需要 很 多 页 的 特定 高 速 缓存 。 第 二 个 参数 是 要 传 给 _get_free_pages0 的 标志 ， 注 意 这 个 标志 是 如 
何 与 另 一 个 值 进行 二 进 制 “或 ”运算 的 ， 这 相当 于 把 高 速 缓存 需要 的 缺 省 标志 加 到 flags 参数 上 。 
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分 配 的 页 大 小 为 2 的 项 次 方 ， 存 放 在 cachep->gfporder 中 。 由 于 与 分 配器 NUMA 相关 的 代码 的 
关系 前 面 这 个 函数 比 想象 的 要 复杂 一 些 。 当 nodeid 是 一 个 非 人 负数 时 ， 分 配器 就 试图 对 从 相同 的 
内 存 节 点 给 发 出 的 请 求 进行 分 配 。 这 在 NUMA 系统 上 提供 了 较 好 的 性 能 ， 但 是 访问 闻 点 之 外 的 
内 存 会 导致 性 能 的 损失 。 

为 了 便于 理解 ， 我 们 可 以 忽略 与 NUMA 相关 的 代码 ， 写 一 个 简单 的 kmem_getpages( 函数 : 


static inline void * kmem getpages (struct kmem cache *cachep, gfp t flags)} 


| 


void *addr; 


flags |= cachep->gfpflags; 
addr = (void*)} get free pages (flags, cachep->gfporder):; 


return addr; 


} 


接着 ， 调 用 kmem_freepages( 释放 内 存 ， 而 对 给 定 的 高 速 缓存 页 ，kmem _freepages() 最 终 调 
用 的 是 free_pages()。 当 然 ，slab 层 的 关键 就 是 避免 频繁 分 配 和 释放 页 。 由 此 可 知 ，slab 层 只 有 当 
给 定 的 高 速 缓存 部 分 中 既 没 有 满 也 设 有 空 的 slab 时 才 会 调用 页 分 配 函 数 。 而 只 有 在 下 列 情 况 下 
才 会 调用 释放 函数 : 当 可 用 内 存 变 得 紧缺 时 ， 系 统 试图 释放 出 更 多 内 存 以 供 使 用 ; 或 者 当 高 速 缓 
存 显 式 地 被 撤销 时 。 

slab 层 的 管理 是 在 每 个 高 速 缓存 的 基础 上 ， 通 过 提供 给 整个 内 核 一 个 简单 的 接口 来 完成 的 。 
通过 接口 就 可 以 创建 和 撤销 新 的 高 速 缓存 ， 并 在 高 速 缓 存 内 分 配 和 释放 对 象 。 高 速 缓 存 及 其 内 
slab 的 复杂 管理 完全 通过 slab 层 的 内 部 机 制 来 处 理 。 当 你 创建 了 一 个 高 速 缓存 后 ，slab 层 所 起 的 
作用 就 像 一 个 专用 的 分 配器 ， 可 以 为 具体 的 对 象 类 型 进行 分 配 。 


12.6.2 slab 分 配器 的 接口 
一 个 新 的 高 速 组 存 通 过 [ 以 下 函数 创建 : 


struct kmem cache * kmem cache createlconst char *name, 
size 七 gize, 
size t align, 
unsigned long flags, 
void {(*ctor) (void *)}; 


第 一 个 参数 是 一 个 字符 串 ， 存 放 着 高 速 缓存 的 名 字 ; 第 二 个 参数 是 高 速 缓存 中 每 个 元 素 的 大 

小 ; 第 三 个 参数 是 slab 内 第 一 个 对 象 的 偏 移 ， 它 用 来 确保 在 页 内 进行 特定 的 对 齐 。 通 常情 况 下 ， 

0 就 可 以 满足 要 求 ， 也 就 是 标准 对 齐 。flags 参数 是 可 选 的 设置 项 ， 用 来 控制 高 速 缓存 的 行为 。 它 
可 以 为 0， 表示 没有 特殊 的 行为 ， 或 者 与 以 下 标志 中 的 一 个 或 多 个 进行 “或 ”运算 : 

“SLAB_HWCACHE_ALIGN 一 一 这 个 标志 命令 slab 层 把 一 个 slab 内 的 所 有 对 象 按 高 速 组 

存 行 对 齐 。 这 就 防止 了 “错误 的 共享 ”两 个 或 多 个 对 象 尽 管 位 于 不 同 的 内 存 地 址 ， 但 映 

射 到 相同 的 高 速 缓存 行 )。 这 可 以 提高 性 能 ， 但 以 增加 内 存 开销 为 代价 ， 因 为 对 齐 越 严 格 ， 
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浪费 的 内 存 就 越 多 。 到 底 会 耗费 掉 多 少 内 存 ， 取 决 于 对 象 的 大 小 以 及 对 象 相 对 于 系统 高 速 

缓存 行 对 齐 的 方式 。 对 于 会 频 莹 使 用 的 高 速 缓存 ， 而 且 代 码 本 身 对 性 能 要 求 又 很 严格 的 情 

况 ， 设 置 该 选项 是 理想 的 选择 ; 否则 ， 请 三 思 而 后 行 。 

*" SLAB_POISON 一 一 这 个 标志 使 slab 层 用 已 知 的 值 (a5a5a5a5) 填充 slab。 这 就 是 所 谓 的 

“中 毒 ”， 有 利于 对 未 初始 化 内 存 的 访问 。 

“SLAB _ RED_ZONE 一 一 这 个 标志 导致 slab 层 在 已 分 配 的 内 存 周围 插 人 “红色 警 界 区 ”以 探 

测 缓冲 越界 。 

" SLAB_PANIC 一 一 这 个 标志 当 分 配 失败 时 提醒 slab 层 。 这 在 要 求 分 配 只 能 成 功 的 时 候 非 常 

有 用 。 比 如 ， 在 系统 初 启 时 分 配 一 个 VMA 结构 的 高 速 缓存 (参见 第 15 童 )。 

* SLAB_CACHE_DMA 一 一 这 个 标志 命令 slab 层 使 用 可 以 执行 DMA 的 内 存 给 每 个 slab 分 配 

空间 。 只 有 在 分 配 的 对 象 用 于 DMA， 而 且 必 须 驻 留 在 ZONE_DMA 区 时 才 需 要 这 个 标志 。 

否则 ， 你 既 不 需要 也 不 应 该 设置 这 个 标志 。 

最 后 一 个 参数 ctor 是 高 速 缓存 的 构造 函数 。 只 有 在 新 的 页 据 加 到 高 速 缓 存 时 ， 构 造 函 数 才 
被 调用 。 实 际 上 ，Linux 内 核 的 高 速 缓存 不 使 用 构造 函数 。 事 实 上 这 里 曾经 还 有 过 一 个 析 构 函数 
参数 ， 但 是 由 于 内 核 代码 并 不 需要 它 ， 因 此 已 经 被 抛弃 了 。 你 可 以 将 ctor 参数 赋值 为 NULL。 

kmem_cache_create() 在 成 功 时 会 返回 一 个 指向 所 创建 高 速 缓存 的 指针 ; 否则 ， 返 回 NULL。 
这 个 函数 不 能 在 中 断 上 下 文中 调用 ， 因 为 它 可 能 会 睡眠 。 

要 撤销 一 个 高 速 缓存 ， 则 调用 : 


int kmem cache destroy {struct kmem cache *cachep) 


顾名思义 ， 这 样 就 可 以 撤销 给 定 的 高 速 缓存 。 这 个 函数 通常 在 模块 的 注销 代码 中 被 调用 ， 当 
然 ， 这 里 指 创建 了 目 己 的 高 速 缓存 的 模块 。 同 样 ， 也 不 能 从 中 断 上 下 文中 调用 这 个 国 数 ， 因 为 它 
也 可 能 睡 卢 。 调 用 该 函数 之 前 必须 确保 存在 以 下 两 个 条 件 : 

* 高速 缓存 中 的 所 有 slab 都 必须 为 空 。 其 实 ， 不 管 哪个 slab 中 ， 只 要 还 有 一 个 对 象 被 分 配 出 

去 并 正在 使 用 的 话 ， 那 怎么 可 能 撤销 这 个 高 速 缓存 呢 ? 

“在 调用 kmem_cache_destroyO 过 程 中 (更 不 用 说 在 调用 之 后 了 ) 不 再 访问 这 个 高 速 缓存 。 

调用 者 必须 确保 这 种 同步 。 

该 函数 在 成 功 时 返回 0， 否则 返回 非 0 值 。 

1. 从 缓存 中 分 配 

创建 高 速 缓存 之 后 ， 就 可 以 通过 下 列国 数 获 取 对 象 : 

void * kmem cache alloclstruct kmem cache *cachep, gfp_t flags) 

该 函数 从 给 定 的 高 速 缓存 cachep 中 退回 一 个 指 癌 对 象 的 指针 。 如 本 高 速 缓存 的 所 有 slab 中 
都 没有 空间 的 对 象 ， 那 么 slab 层 必 须 通过 kmem_getpages() 获取 新 的 页 ，flags 的 值 传递 给 _get_ 
free_ pages()。 这 与 我 们 前 面 看 到 的 标志 相同 ， 你 用 到 的 应 该 是 GFP_KERNEL 或 GFP_ATOMIC。 

最 后 释放 一 个 对 象 ， 并 把 它 返 回 给 原先 的 slab， 可 以 使 用 下 面 这 个 国 数 : 


VODia Kmem cache free{struct kmem cache *cachep, void *objp) 
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这 样 就 能 把 cachep 中 的 对 象 objp 标记 为 空闲 。 

2. slab 分 配器 的 使 用 实例 

让 我 们 考察 一 个 鲜 活 的 实例 ， 这 个 例子 用 的 是 task_struct 结构 (进程 描述 符 )。 代 码 稍 微 有 
点 复杂 ， 取 自 kernel/fork.c。 

首先 ， 内 核 用 一 个 全 局 变量 存放 指向 task_struct 高 速 缓存 的 指针 : 


struct kmem cache *task struct cachep; 
在 内 核 初始 化 期 间 ， 在 定义 于 kemeVfork.c 的 fork_initO 中 会 创建 高 速 缓存 : 


task struct cachep = kmem Cache create("task struct", 
sizeof {struct task struct}, 
ARCH MIN TASKALIGN, 
SLAB PANIC | SLAB NOTRACK, 
NULL) ; 


这 样 就 创建 了 一 个 名 为 task_strmct 的 高 速 缓存 ， 其 中 存放 的 就 是 类 型 为 struct task_struct 
的 对 象 。 该 对 象 被 创建 后 存放 在 slab 中 偏 移 量 为 ARCH MIN_ TASKALIGN 个 字 节 的 地 方 ， 
ARCH MIN_TASKALIGN 预定 义 值 与 体系 结构 相关 。 通 常 将 它 定 义 为 Ll_CACHE_BYTES 一 一 
Ll 高 速 缓存 的 字 节 大 小 。 没 有 构造 国 数 或 析 构 函数 。 注 意 不 用 检查 返回 值 是 否 为 失败 标记 
NULL， 因 为 SLAB_PANIC 标志 已 经 被 设置 了 。 如 果 分 配 失 败 ，slab 分 配器 就 调用 panic() 函数 。 
如 果 设 有 提供 SLAB_PANIC 标志 ， 就 必须 自己 检查 返回 值 。SLAB_PANIC 标志 用 在 这 儿 是 因为 
这 是 系统 操作 必 不 可 少 的 高 速 缓存 (没有 进程 描述 符 ， 机 器 自然 不 能 正常 运行 )。 

每 当 进 程 调用 fork() 时 ， 一 定 会 创建 一 个 新 的 进程 描述 符 〈 回 忆 一 下 第 3 章 )。 这 是 在 dup_ 
task_sturct() 中 完成 的 ， 而 该 函数 会 被 do_fork0 调用 : 


struct task struct *tek; 


task = kmem cache alloc (task struct cachep, GFP KERNEL):; 
if (!tsk) 
return NULL; 


进程 执行 完 后 ， 如 果 没 有 子 进程 在 等 待 的 话 ， 它 的 进程 描述 符 就 会 被 释放 ， 并 返回 给 task_ 
struct_cachep slab 高 速 疆 企 。 这 和 是 在 free_task_struct() 中 执行 的 〈 这 里 ，tsk 是 现 有 的 进程 ) : 


kmem cache freeltask struct cachep, tsk}; 


由 于 进程 描述 符 是 内 核 的 核心 组 成 部 分 ， 时 刻 都 要 用 到 ， 因 此 task_struct_cachep 高 速 缓存 
绝 不 会 被 撤销 斥 。 即 使 真能 撤销 ， 我 们 也 要 通过 下 列国 数 阻止 其 被 撤销 : 


int err; 


人 IT = kmem cache destroy{(task struct cachep}; 
1f lerr) 
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/* 出 错 ， 撤 销 高 速 缓存 */ 


很 容易 吧 ? slab 层 负 责 内 存 紧缺 情况 下 所 有 底层 的 对 齐 、 着 色 、 分 配 、 释 放 和 回收 等 。 如 
琳 你 要 关系 创建 很 多 相同 类 型 的 对 象 ， 那 么 ， 就 应 该 考虑 使 用 slab 高 速 缓存。 也 就 是 说 ， 不 要 
目 己 去 实现 空闲 链表 ! 


12.7 ”在 栈 上 的 静态 分 配 


在 用 户 空间 ， 我 们 以 前 所 讨论 到 的 那些 分 配 的 例子 ， 有 不 少 都 可 以 在 栈 上 发 生 。 因 为 我 们 毕 
竟 可 以 事先 知道 所 分 配 空间 的 大 小 。 用 户 空 间 能 够 奢侈 地 人 负担 起 非常 大 的 栈 ， 而 且 栈 空间 还 可 以 
动态 增长 ， 相 反 ， 内 核 却 不 能 这 么 奢侈 一 一 内 核 栈 小 而 且 固 定 。 当 给 每 个 进程 分 配 一 个 固定 大 小 
的 小 栈 后 ， 不 但 可 以 减少 内 存 的 祖 耗 ， 而 且 内 核 也 无 须 负 担 太 重 的 栈 管理 任务 。 

每 个 进程 的 内 核 栈 大 小 既 依 赖 体系 结构 ， 也 与 编译 时 的 选项 有 关 。 历 史上 ， 每 个 进程 都 有 两 
页 的 内 核 栈 。 因 为 32 位 和 64 位 体系 结构 的 页 面 大 小 分 别 是 4KB 和 8KB， 所 以 通常 它们 的 内 核 
栈 的 大 小 分 别 是 8KB 和 16KB。 


12.7.1 单 页 内 核 栈 


但 是 ， 在 2.6 系列 内 核 的 早期 ， 引 入 了 一 个 选项 设置 单 页 内 核 栈 。 当 激活 这 个 选项 时 ， 每 个 
进程 的 内 核 栈 只 有 一 页 那么 大 ， 根 据 体系 结构 的 不 同 ， 或 为 4KB， 或 为 8SKB。 这 人 么 做 出 于 两 个 
原因 : 首先 ， 可 以 让 每 个 进程 减少 内 存 消 耗 。 其 次 ， 也 是 最 重要 的 ， 随 着 机 器 运行 时 间 的 增加 ， 
寻找 两 个 未 分 配 的 、 连 续 的 页 变 得 越 来 越 困 难 。 物 理 内 存 产 源 变 为 碎片 ， 因此， 给 一 个 新 进程 分 
配 虚 拟 内 存 (VM) 的 压力 也 在 增 大 。 

还 有 一 个 更 复杂 的 原因 。 继 续 跟 随 我 : 我 们 几乎 掌握 了 关于 内 核 栈 的 全 部 知识 。 现 在 ， 每 个 
进程 的 整个 调用 链 必 须 帮 在 目 己 的 内 核 栈 中 。 不 过 ， 中 断 处 理 程序 也 曾经 使 用 它们 所 中 断 的 进程 
的 内 核 栈 ， 这 样 ， 中 断 处 理 程序 也 要 放 在 内 核 栈 中 。 这 当然 有 效 而 简单 ， 但 是 ， 这 同时 会 把 更 严 
格 的 约束 条 件 加 在 这 可 怜 的 内 核 栈 上 。 当 我 们 转 而 使 用 只 有 一 个 页 面 的 内 核 栈 时 ， 中 断 处 理 程序 
就 不 放 在 栈 中 了 。 

为 了 矫正 这 个 问题 ， 内 核 开发 者 们 实现 了 一 个 新 功能 : 中 断 栈 。 中 断 栈 为 每 个 进程 提供 一 个 
用 于 中 断 处 理 程 序 的 栈 。 有 了 这 个 选项 ， 中 断 处 理 程 序 不 用 再 和 被 中 断 进程 共享 一 个 内 核 栈 ， 它 
们 可 以 使 用 自己 的 栈 了 。 对 每 个 进程 来 说 仅仅 耗费 了 一 页 而 已 。 

总 的 来 说 , 内核 栈 可 以 是 1 页 ,也 可 以 是 2 页 ,这 取决 于 编译 时 配置 选项 。 栈 大 小 因此 在 
4 一 16KB 的 范围 内 。 历 史上 , 中 断 处 理 程序 和 被 中 断 进程 共享 一 个 栈 。 当 1 页 栈 的 选项 激活 时 ， 
中 断 处 理 程 序 获 得 了 自己 的 栈 。 在 任何 情况 下 ,无 限制 的 递归 和 alloca0 显然 是 不 被 允许 的 。 

好 ， 就 讲 到 这 里 。 大 家 明白 了 吗 ? 


12.7.2 ”在 栈 上 光明 正大 地 工作 


在 任意 一 个 函数 中 ， 你 都 必须 尽量 节省 栈 资 源 。 这 并 不 难 ， 也 没有 什么 窍门 ， 只 需要 在 具体 
的 函数 中 让 所 有 局 部 变量 〈 即 所 谓 的 自动 变量 ) 所 占 空 间 之 和 不 要 超过 几 百 字 节 。 在 栈 上 进行 大 


a = se 


量 的 静态 分 配 〈 比 如 分 配 大 型 数组 或 大 型 结构 体 ) 是 很 危险 的 。 要 不 然 ， 在 内 核 中 和 在 用 户 空间 
中 进行 的 栈 分 配 就 没有 什么 差别 了 。 栈 溢出 时 悄 无 声息 ， 但 势必 会 引起 严重 的 问题 。 因 为 内 核 没 
有 在 管理 内 核 栈 上 做 足 工 作 ， 因 此 ， 当 栈 溢 出 时 ， 多 出 的 数据 就 会 直接 谥 出来， 覆盖 掉 紧 邻 堆栈 
末端 的 东西 。 首 先 面临 考验 的 就 是 thread_info 结构 (回想 一 下 第 3 章 ， 这 个 结构 就 贴 着 每 个 进 
程 内 核 堆栈 的 末端 )。 在 堆栈 之 外 ， 任 何 内 核 数据 都 可 能 存在 潜在 的 危险 。 当 栈 溢出 时 ， 最 好 的 
情况 是 机 器 宕 机 ， 最 坏 的 情况 是 悄 无 声息 地 破坏 数据 。 

因此 ， 进 行动 态 分 配 是 一 种 明智 的 选择 ， 本 章 前 面 有 关 大 块 内 存 的 分 配 就 是 采用 这 种 方式 。 


12.8 高 端 内 存 的 映射 


根据 定义 ， 在 高 端 内 存 中 的 页 不 能 永久 地 映射 到 内 核 地 址 空间 上 。 因 此 ， 通 过 alloc_pages() 
函数 以 _GFP HIGHMEM 标志 获得 的 页 不 可 能 有 远 辑 地 址 。 

在 x86 体系 结构 上 ， 高 于 896MB 的 所 有 物理 内 存 的 范围 大 都 是 高 端 内 存 ， 它 并 不 会 永久 
地 或 自动 地 映射 到 内 核 地 址 空间 ， 尽 管 x86 处 理 器 能 够 寻 址 物理 RAM 的 范围 达到 4GB (启用 
PAE 个 可 以 寻 址 到 64GB)。 一 旦 这 些 页 被 分 配 ， 就 必须 映射 到 内 核 的 逻辑 地 址 空间 上 。 在 x86 
上 ， 高 端 内 存 中 的 页 被 映射 到 3GB 一 4GB。 


12.8.1 永久 映射 


要 映射 一 个 给 定 的 page 结构 到 内 核 地 址 空间 ， 可 以 使 用 定义 在 文件 <linux/highmem.h> 中 的 
这 个 函数 : 


void *kmap (struct page *page) 


这 个 函数 在 高 端 内 存 或 低 端 内 存 上 都 能 用 。 如 果 page 结构 对 应 的 是 低 端 内 存 中 的 一 页 ， 函 
数 只 会 单纯 地 返回 该 页 的 虚 氢 地 址 。 如 有 果 页 位 于 高 端 内 存 ， 则 会 建立 一 个 永久 映射 ， 再 返回 地 
址 。 这 个 函数 可 以 睡眠， 因此 kmap(O 只 能 用 在 进程 上 下 文中 。 

因为 允许 永久 映射 的 数量 是 有 限 的 (如 琳 没 有 这 个 限制 ， 我 们 就 不 必 搞 得 这 么 复杂 ， 把 所 有 
内 存 通通 映射 为 永和 从 内 存 就 行 了 )， 当 不 再 需要 高 高 内 存 时 ， 应 该 解除 映射 ， 这 可 以 通过 下 列国 
数 完成 : 

void kunmap (BtrUCL page *page) 
12.8.2 临时 映射 

当 必须 创建 一 个 映射 而 当前 的 上 下 文 又 不 能 睡眠 时 ， 内 核 提供 了 临时 映射 (也 就 是 所 谓 的 原 
子 映射 )。 有 一 组 保留 的 映射 ， 它 们 可 以 存放 新 创建 的 临时 映射 。 内 核 可 以 原子 地 把 高 端 内 存 中 
的 一 个 页 映射 到 某 个 保留 的 映射 中 。 因 此 ， 临 时 映射 可 以 用 在 不 能 睡眠 的 地 方 ， 比 如 中 断 处 理 程 
序 中 ， 因 为 获取 映射 时 绝 不 会 阻塞 。 


电 。、PAE 是 Physical Address Extension 的 缩写 ， 这 是 x86 处 理 器 的 特点 ， 这 种 特点 使 得 x86 处 理 器 尽管 只 有 32 位 
的 虚报 地 址 空间 ， 但 从 物理 上 能 寻 址 到 36 位 64GB) 的 内 存 空间 ， 
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通过 下 列 函 数 建立 一 个 临时 映射 : 
Void *kmap atomiclstruct page *page, enum km type type) 


参数 type 是 下 列 枚 举 类 型 之 一 ， 这 些 枚 举 类 型 描述 了 临时 映射 的 目的 。 它 们 定 父 于 <asm/ 
kmap types.h> 中 : 


enum km type | 
KM BOUNCE READ, 
KM_SKB SUNRPC DATA, 
KM_SKB DATA SOFTIRO, 
KM_USERO, 
KM_USER1, 
KM BIO SRC IRQ, 
KM BIO DST IRQ, 
EM PTED, 


KM PTEl, 


KM_PTE2, 
KM_IRQO, 
KM_IRQ1， 

KM SOFTIRQO, 
KM SOFTIRQ1, 

FM SYNC ICACHE, 
KM SYNC DCACHE, 
KM_UML USERCOPY, 
KM_IRQ PTE, 
KM_NMI, 
KM_NMI_PTE, 
KM_TYPE NR 


}; 


这 个 函数 不 会 阻塞 ， 因 此 可 以 用 在 中 断 上 下 文 和 其 他 不 能 重新 调度 的 地 方 。 它 也 禁止 内 核 抢 
占 ， 这 是 有 必要 的 ， 因 为 映射 对 每 个 处 理 器 都 是 唯一 的 (调度 可 能 对 哪个 处 理 占 执行 哪个 进程 做 
变动 )。 

通过 下 列 函 数 取 消 映射 : 

void kunmap _ atomic (void *kvaddr, enum km type type) 

这 个 立 数 也 不 会 阻塞 。 在 很 多 体系 结构 中 ， 除 非 激 活 了 了 内核 抢 占 ， 否 则 kmap_atomic() 根本 
就 无 事 可 做 ， 因 为 只 有 在 下 一 个 临时 映射 到 来 前 上 一 个 临时 映射 才 有 效 。 因 此 ， 内 核 完 全 可 以 
“忘掉 ”kmap_atomic() 映射，kunmap_atomic() 也 无 须 做 什么 实际 的 事情 。 下 一 个 原子 映射 将 自动 
覆盖 前 一 个 映射 。 

12.9 每 个 CPU 的 分 配 
支持 SMP 的 现代 操作 系统 使 用 每 个 CPU 上 的 数据 , 对 于 给 定 的 处 理 器 其 数据 是 唯一 的 。 一 


般 来 说 ， 每 个 CPU 的 数据 存放 在 一 个 数组 中 。 数 组 中 的 每 一 项 对 应 着 系统 上 一 个 存在 的 处 理 磊 。 
按 当 前 处 理 器 号 确定 这 个 数组 的 当前 元 素 ， 这 就 是 2.4 内 核 处 理 每 个 CPU 数据 的 方式 。 这 种 方 
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式 还 不 错 ， 因 此 ，2.6 内 核 的 很 多 代码 依然 用 它 。 可 以 声明 数据 如 下 : 


unsigned long my_ percpu[lNR CBEUS] ; 


然后 ， 按 如 下 方式 访问 它 : 


int cpu; 


cpu = get_cpul); /* 获得 当前 处 理 器 ， 并 禁止 内 核 抢占 */ 
my_percpu[cpu] ++; /* ... 或 者 无 论 什 么 */ 
printk ("my Percpu on cpu=%d is $%lu\n", cpu, my percpulcpul])}.; 
put cpul(); /x+ 激活 内 核 抢占 */ 


注意 ， 上 面 的 代码 中 并 没有 出 现 锁 ， 这 是 因为 所 操作 的 数据 对 当前 处 理 器 来 说 是 唯一 的 。 除 
了 当前 处 理 器 之 外 ， 没 有 其 他 处 理 器 可 接触 到 这 个 数据 ， 不 存在 并 发 访问 问题 ， 所 以 当前 处 理 器 
可 以 在 不 用 锁 的 情况 下 安全 访问 它 。 

现在 ， 内 核 抢占 成 为 了 唯一 需要 关注 的 问题 了 ， 内 核 抢 占 会 引起 下 面 提 到 的 两 个 问题 : 

* 如果 你 的 代码 被 其 他 处 理 器 抢占 并 重新 调度 ， 那 么 这 时 CPU 变量 束 会 无 效 ， 因 为 它 指 问 

的 是 错误 的 处 理 器 通常， 代码 获 得 当前 处 理 器 后 是 不 可 以 睡眠 的 )。 

* 如果 另 一 个 任务 抢占 了 你 的 代码 ， 那 么 有 可 能 在 同一 个 处 理 器 上 发 生 并 发 访问 my_percpu 

的 情况 ， 显 然 这 属于 一 个 竞争 条 件 。 

虽然 如 此 ， 但 是 你 大 可 不 必 惊 懂 ， 因 为 在 获取 当前 处 理 器 号 ， 即 调用 get_cpu0 时 ， 就 已 经 
禁止 了 内 核 抢占 。 相 应 的 在 调用 put_cpu0 时 又 会 重新 油 活 当前 处 理 器 号 。 福 意 ， 只 要 你 总 使 用 
上 述 方法 来 保护 数据 安全 ， 那 么 ， 内 核 抢占 就 不 需要 你 自己 去 禁止 。 


12.10 ”新 的 每 个 CPU 接口 

2.6 内 核 为 了 方便 创建 和 操作 每 个 CPU 数据 ， 而 引进 了 新 的 操作 接口 ， 称 作 percpu。 读 接口 
归纳 了 前 面 所 述 的 操作 行为 ， 简 化 了 创建 和 操作 每 个 CPU 的 数据 。 

但 前 面 我 们 讨论 的 创建 和 访问 每 个 CPU 的 方法 依然 有 效 ， 不 过 大 型 对 称 多 处 理 器 计算 机 要 
求 对 每 个 CPU 数据 操作 更 简单 ， 功 能 更 强大 ， 正 是 在 这 种 背景 下 ， 新 接口 应 运 而 生 。 

头 文件 <linux/percpu.h> 声明 了 所 有 的 接口 操作 例 程 ， 你 可 以 在 文件 mm/slab.c 和 <asm/ 
percpu.h> 中 找到 它们 的 定义 。 


12.10.1 编译 时 的 每 个 CPU 数据 
在 编译 时 定义 每 个 CPU 变量 易如反掌 : 


DEFINE PER CPU(type, name); 


这 个 语句 为 系统 由 的 每 一 个 处 理 器 都 创建 了 一 个 类 型 为 type， 和 名 字 为 name 的 变量 实例 ， 如 
果 你 需要 在 别处 声明 变量 ， 以 防范 编译 时 警告 ， 那 么 下 面 的 宏 将 是 你 的 好 帮手 : 


DECLARE PER CPUI(type, name); 


你 可 以 利用 get_cpu_var( 和 put_cpu_var0 例 程 操作 变量 。 调 用 get_cpu_var() 返回 当前 处 理 
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器 上 的 指定 变量 ， 同 时 它 将 茜 止 抢占 ; 另 一 方面 put_cpu_var0 将 相应 的 重新 激活 抢占 。 


get_ cpu var (name)++; /* 增加 读 处 理 器 上 的 name 变 基 的 值 */ 
put cpu var{name); /* 完成 ; 重新 沿 活 内 核 抢占 */ 


你 也 可 以 获得 别 的 处 理 器 上 的 每 个 CPU 数据 ; 
per cpulname, cpu)++; A* 增加 指定 处 理 器 上 的 name 变量 的 值 */ 


使 用 此 方法 你 需要 格外 小 心 ， 因 为 per_cpug0 函数 既 不 会 禁止 内 核 抢 占 ， 也 不 会 提供 任何 形 
式 的 锁 保 护 。 如 果 一 些 处 理 器 可 以 接触 到 其 他 处 理 器 的 数据 ， 那 么 你 就 必须 要 给 数据 上 锁 。 注 
意 ， 第 9 章 和 第 10 章 详细 讨论 了 数据 上 锁 问 题 。 

另外 还 有 一 个 需要 提醒 的 问题 : 这 些 编译 时 每 个 CPU 数据 的 例子 并 不 能 在 模块 内 使 用 ， 因 
为 连接 程序 实际 上 将 它们 创建 在 一 个 唯一 的 可 执行 段 中 《〈.data.percpu)。 如 果 你 需要 从 模块 中 访 
问 每 个 CPU 数据 ， 或 者 如 果 你 需要 动态 创建 这 些 数据 ， 那 还 是 有 和 希望 的 。 


12.10.2 运行 时 的 每 个 CPU 数据 


内 核实 现 每 个 CPU 数据 的 动态 分 配方 法 类 似 于 kmalloc0。 该 例 程 为 系统 上 的 每 个 处 理 器 创 
建 所 需 内 存 的 实例 ， 其 原型 在 文件 <linux/percpu.h> 中 : 


void *alloc percpultype); /* 一 个 宏 */ 
void * alloc percpulsize 七 size, size t+ align); 
void free percpulconst void *); 


宏 alloc_percpu() 给 系统 中 的 每 个 处 理 器 分 配 一 个 指定 类 型 对 象 的 实例 。 它 其 实 是 宏 _ alloc_ 
percpu() 的 一 个 封装 ， 这 个 原始 宏 接 收 的 参数 有 两 个 ; 一 个 是 要 分 配 的 实际 字 节 数 ， 一 个 是 分 配 
时 要 按 多 少 字 市 对 齐 。 而 封装 后 的 alloc_percpul) 按照 单字 贡 对 齐 一 一 按照 给 定 类 型 的 目 然 边 界 
对 齐 。 这 种 对 齐 方 式 最 为 常用 。 比 如 : 


struct rabid cheetah = alloc percpulstruct rabid cheetah),; 


struct rabid cheetah = alloc percpulsizeof (Struct rabid cheetah), 
alignof {atruct rabid cheetah})}; 


_ alignof 是 gcc 的 一 个 功能 ， 它 会 返回 指定 类 型 或 lvalue 所 需 的 (或 建议 的 ， 要 知道 有 
些 古 怪 的 体系 结构 并 没有 字 节 对 齐 的 要 求 ) 对齐 字 节 数 。 它 的 语义 和 sizeof 一 样 ， 比 如 ， 下 列 程 
序 在 x86 体系 中 将 返回 4: 


_ alignof __ {unsigned long) 


如 果 指 定 一 个 lvalue， 那 么 将 返回 lvalue 的 最 大 对 齐 字 节 数 。 比 如 一 个 结构 中 的 lvalue 相 比 
结构 外 的 lvalue 可 能 有 更 大 的 对 齐 字 刷 需求， 这 是 结构 本 身 的 对 齐 要 求 的 缘故 。 有 关 对 齐 的 进 一 
步 讨论 我 们 放 在 第 19 章 中 介绍 。 

相应 的 调用 free_percpu() 将 释放 所 有 处 理 器 上 指定 的 每 个 CPU 数据 。 
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无 论 是 alloc_percpu() 或 是 _ alloc_percpu() 都 会 返回 一 个 指针 ， 它 用 来 间接 引用 动态 创建 的 
每 个 CPU 数据 ， 内 核 提供 了 两 个 宏 来 利用 指针 获取 每 个 CPU 数据 : 

get cpu var (Ptr) ; /* 返回 一 个 void 类 型 指针 ， 读 指针 指向 处 理 器 的 ptr 的 拷贝 */ 

put cpu var (ptr); /* 完成 : 重新 激活 内 核 抢 占 */ 

get_cpu_var0 宏 返回 了 一 个 指向 当前 处 理 器 数据 的 特殊 实例 ， 它 同时 会 禁止 内 核 抢占 ; 而 在 
et_cpu_var() 宏 中 会 重新 激活 内 核 抢 占 。 

我 们 来 看 一 个 使 用 这 些 函 数 的 完整 例子 。 当 然 这 个 例子 有 乓 无 聊 ， 因 为 通 带 你 会 一 次 分 配 够 
内 存 〈 比 如 ， 在 某 些 初始 化 函数 中 )， 就 可 以 在 各 种 地 方 使 用 它 ， 或 再 一 次 释放 《比如 ， 在 一 些 
清理 函数 中 )。 不 过 ， 这 个 例子 可 清楚 地 说 明 如 何 使 用 这 些 函 数 。 


VoOid *percpu ptr; 
unsigned long *foo; 


percpu ptr = alloc percpulunsigned long}; 
if {!ptr) 
/* 内 存 分 配 错 误 ... */ 


Eco = get cpu var(lpercpu ptr); 
1j* 操作 foo ... */ 


put cpu varipercpu ptr); 


12.11 ”使 用 每 个 CPU 数据 的 原因 


使 用 每 个 CPU 数据 具有 不 少 好 处 。 首 先是 减少 了 数据 锁定 。 因 为 按照 每 个 处 理 器 访问 每 个 
CPU 数据 的 逻辑 ， 你 可 以 不 再 需要 任何 锁 。 记 住 “ 只 有 这 个 处 理 器 能 访问 这 个 数据 ”的 规则 纯 
粹 是 一 个 编程 约定 。 你 需要 确保 本 地 处 理 器 只 会 访问 它 自 己 的 唯一 数据 。 系 统 本 身 并 不 存在 任何 
措施 禁止 你 从 事 欺 骗 活 动 。 

第 二 个 好 处 是 使 用 每 个 CPU 数据 可 以 大 大 减少 缓存 失效 。 失 效 发 生 在 处 理 器 试图 使 它们 的 
缓存 保持 同步 时 。 如 果 一 个 处 理 器 操作 某 个 数据 ， 而 该 数据 又 存放 在 其 他 处 理 器 缓存 中 ， 那 么 存 
放 该 数据 的 那个 处 理 器 必须 清理 或 刷新 自己 的 缓存 。 持 续 不 断 的 缓存 失效 称 为 缓存 抖动 ， 这 样 对 
系统 性 能 影响 颇 大 。 使 用 每 个 CPU 数据 将 使 得 缓存 影响 降 至 最 低 ， 因 为 理想 情况 下 只 会 访问 自 
己 的 数据 。percpu 接口 缓存 一 对 齐 (cache-align) 所 有 数据 ， 以 便 确保 在 访问 一 个 处 理 器 的 数据 
时 ， 不 会 将 另 一 个 处 理 器 的 数据 带 入 同一 个 缓存 线 上 。 

综 上 所 述 ， 使 用 每 个 CPU 数据 会 省 去 许多 (或 最 小 化 ) 数据 上 锁 ， 它 唯一 的 安全 要 求 就 
是 要 禁止 内 核 抢占 。 而 这 点 代价 相 比 上 锁 要 小 得 多 ， 而 且 接 口 会 自动 帮 你 完成 这 个 步骤 。 每 个 
CPU 数据 在 中 断 上 下 文 或 进程 上 下 文中 使 用 都 很 安全 。 但 要 注意 ， 不 能 在 访问 每 个 CPU 数据 过 
程 中 睡眠 一 一 否则 ， 你 就 可 能 醒 来 后 已 经 到 了 其 他 处 理 器 上 了 。 

目前 并 不 要 求 必须 使 用 每 个 CPU 的 新 接口 。 只 要 你 禁止 了 内 核 抢 占 ， 用 手动 方法 (利用 我 
们 原来 讨论 的 数组 ) 就 很 好 ， 但 是 新 接口 在 将 来 更 容易 使 用 ， 而 且 功 能 也 会 得 到 长 是 的 优化 。 如 
果 确 实 决定 在 你 的 内 核 中 使 用 每 个 CPU 数据 ， 请 考虑 使 用 新 接口 。 但 我 要 提醒 的 是 一 新 接口 
并 不 同 后 兼容 之 前 的 内 核 。 
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12.12 “分配 函数 的 选择 


在 这 么 多 分 配 函 数 和 方法 中 ， 有 时 并 不 能 搞 清 楚 到 底 读 选择 那 种 方式 分 配 一 一 但 这 确实 很 重 
要 。 如 果 你 需要 连续 的 物理 页 ， 就 可 以 使 用 某 个 低级 页 分 配器 或 kmalloc()。 这 是 内 核 中 内 存 分 
配 的 常用 方式 ， 也 是 大 多 数 情况 下 你 自己 应 该 使 用 的 内 存 分 配方 式 。 回 忆 一 下 ， 传 递 给 这 些 国 数 
的 两 个 最 常用 的 标志 是 GFP ATOMIC 和 GFP KERNEL。GFP _ATOMIC 表示 进行 不 睡眠 的 高 优 
先 级 分 配 ， 这 是 中 断 处 理 程 序 和 其 他 不 能 睡 卢 的 代码 段 的 需要 。 对 于 可 以 睡 卢 的 代码 ，( 比 如 没 
有 持 自 旋 锁 的 进程 上 下 文 代码 ) 则 应 读 使 用 GFP_KERNEL 获取 所 需 的 内 存 。 这 个 标志 表示 如 果 
有 必要 ， 分 配 时 可 以 睡眠 。 

如 果 你 想 从 高 端 内 存 进 行 分 配 ， 就 使 用 alloc_pagesO0。alloc_pages() 函数 返回 一 个 指向 struct 
page 结构 的 指针 ， 而 不 是 一 个 指向 某 个 逻辑 地 址 的 指针 。 因 为 高 端 内 存 很 可 能 并 没有 被 映射 ， 
因此 ， 访 问 它 的 唯一 方式 就 是 通过 相应 的 stmuct page 结构 。 为 了 获得 真正 的 指针 ， 应 该 调用 
kmap(O0， 把 高 端 内 存 映射 到 内 核 的 逻辑 地 址 空间 。 

如 果 你 不 需要 物理 上 连续 的 页 ， 而 仅仅 需要 虚拟 地 址 上 连续 的 页 ， 那 么 就 使 用 vmalloc0 (不 
过 要 记 住 vmalloc() 相对 kmalloc() 来 说 ， 有 一 定 的 性 能 损失 )。vmalloc0O 函数 分 配 的 内 存 虚 地 址 
是 连续 的 ， 但 它 本 身 并 不 保证 物理 上 的 连续 。 这 与 用 户 空间 的 分 配 非 常 类 似 ， 它 也 是 把 物理 内 存 
块 映射 到 连续 的 逻辑 地 址 空间 上 。 

如 果 你 要 创建 和 撤销 很 多 大 的 数据 结构 ， 那 么 考虑 建立 slab 高 速 缓存 。slab 层 会 给 每 个 处 理 
器 维持 一 个 对 象 高 速 缓 存 〈 空 闲 链表 )， 这 种 高 速 缓存 会 极 大 地 提高 对 象 分 配 和 回收 的 性 能 。slab 
层 不 是 频 黎 地 分 配 和 释放 内 存 ， 而 是 为 你 把 事先 分 配 好 的 对 象 存放 到 高 速 缓 在 中 。 当 你 需要 一 块 
新 的 内 存 来 存放 数据 结构 时 ，slab 层 一 般 无 须 另外 去 分 配 内 存 ， 而 只 需要 从 高 速 缓存 中 得 到 一 个 
对 象 就 可 以 了 。 


12.13 小结 


本 章 中 ， 我 们 学 习 了 Linux 内 核 如 何 管理 内 存 。 我 们 首先 看 到 了 内 存 空间 的 各 种 不 同 的 描述 
单位 ， 包 括 字 市 、 页 面 和 区 《在 第 15 章 的 进程 地 址 空间 中 可 看 到 4 种 不 同 层 次 的 内 存单 位 )。 我 
们 接着 讨论 了 各 种 内 存 分 配 机 制 ， 其 中 包括 页 分 配器 和 slab 分 配器 。 在 内 核 中 分 配 内 存 并 非 总 
是 轻而易举 ， 因 为 你 必须 小 心地 确保 分 配 过 程 遵 从 内 核 特定 的 状态 约束 。 比 如 分 配 过 程 中 不 得 堵 
塞 ， 或 者 访问 文件 系统 等 约束 。 为 此 我 们 讨论 了 gp 标识 以 及 使 用 每 个 标识 的 针对 场景 。 分 配 内 
存 相 对 复杂 是 内 核 开 发 和 用 户 程序 开发 的 最 大 区 别 之 一 ， 本 章 使 用 大 量 篇 幅 描述 内 存 分 配 的 各 种 
不 同 接口 一 一 通过 这 些 不 同调 用 接口 ， 你 应 该 能 感觉 到 内 核 中 分 配 内 存 为 什么 更 复杂 的 原因 。 在 
本 章 基 础 上 ， 在 第 13 章 我 们 讨论 虚拟 文件 系统 (VFS) 一 一 负责 管理 文件 系统 且 为 用 户 空 间 程 
序 提供 一 致 性 接口 的 内 核子 系统 。 我 们 继续 深 入 ! 


第 43 章 
虚拟 文件 系统 


虚拟 文件 系统 (有 时 也 称 作 虚 拟 文 件 交换 ， 更 常见 的 是 简称 VFS) 作为 内 核子 系统 ， 为 用 
户 空间 程序 提供 了 文件 和 文件 系统 相关 的 接口 。 系 统 中 所 有 文件 系统 不 但 依赖 VFS 共存 ， 而 且 
也 依靠 VFS 系统 协同 工作 。 通 过 虚拟 文件 系统 ， 程 序 可 以 利用 标准 的 Uinx 系统 调用 对 不 同 的 文 
件 系 统 ， 共 至 不 同 介质 上 的 文件 系统 进行 读 写 操作 ， 如 图 13-1 所 示 。 


ext3 文 件 格式 的 硬盘 


诈 
ext2 文 件 格式 的 磁盘 


图 13-1 VFS 执行 的 动作 : 使 用 cp(1) 命令 从 ext3 文件 系统 格式 的 硬盘 拷贝 数据 到 ext2 文件 系统 
格式 的 可 移动 磁盘 上 。 两 种 不 同 的 文件 系统 ， 两 种 不 同 的 介质 ， 连 接 到 同一 个 VFS 上 


13.1 通用 文件 系统 接口 


VFS 使 得 用 户 可 以 直接 使 用 open0、read0 和 write0 这 样 的 系统 调用 而 无 须 考虑 具体 文件 系统 
和 实际 物理 介质 。 现 在 听 起 来 这 并 没什么 新 奇 的 〈 我 们 早 就 认为 这 是 理所当然 的 )， 但 是 ， 使 得 这 
些 通用 的 系统 凋 用 可 i 以 跨越 各 种 文件 系统 和 不 同 介质 执行 ， 绝 非 是 微不足道 的 成 绩 。 更 了 不 起 的 
是 ， 系 统 调用 可 以 在 这 些 不 同 的 文件 系统 和 介质 之 间 执 行 一 一 我 们 可 以 使 用 标准 的 系统 调用 从 一 
个 文件 系统 拷贝 或 移动 数据 到 另 一 个 文件 系统 。 老 式 的 操作 系统 〈 比 如 DOS) 是 无 力 完成 上 述 
工作 的 ， 任 何 对 非 本 地 文件 系统 的 访问 都 必须 依靠 特殊 工具 才能 完成 。 正 是 由 于 现代 操作 系统 引 
人 抽象 层 ， 比 如 Linux， 通 过 虚拟 接口 访问 文件 系统 ， 才 使 得 这 种 协作 性 和 泛 型 存 取 成 为 可 能 。 

新 的 文件 系统 和 新 类 型 的 存储 介质 都 能 找到 进入 Linux 之 路 ， 程 序 无 需 重 写 ， 其 至 无 须 重新 
编译 。 在 本 章 中 ， 我 们 将 讨论 VFS， 它 把 各 种 不 同 的 文件 系统 抽象 后 采用 统一 的 方式 进行 操作 。 
在 第 14 章 中 ， 我 们 将 讨论 块 WO 层 ， 它 支持 各 种 各 样 的 存储 设备 一 一 从 CD 到 蓝光 光盘 ， 从 硬 
件 设 备 再 到 压缩 内 存 。VEFS 与 块 VO 相 结 合 ， 提 供 抽 象 、 接 口 以 及 交融 ， 使 得 用 户 空 间 的 程序 调 





雇 拟 文 们 天 纸 


用 统一 的 系统 调用 访问 各 种 文件 ， 不 管 文件 系统 是 什么 ， 也 不 管 文件 系统 位 于 何 种 介质 ， 采 用 的 
命名 策略 是 统一 的 。 


13.2 文件 系统 抽象 层 


之 所 以 可 以 使 用 这 种 通用 接口 对 所 有 类 型 的 文件 系统 进行 操作 ， 是 因为 内 核 在 它 的 底层 文件 
系统 接口 上 建立 了 一 个 抽象 县 。 该 抽象 县 使 Linux 能 够 支持 各 种 文件 系统 ， 即 便 是 它们 在 功能 和 
行为 上 存在 很 大 差别 。 为 了 支持 多 文件 系统 ，VFS 提供 了 一 个 通用 文件 系统 模型 ， 该 模型 囊括 了 
任何 文件 系统 的 常用 功能 集 和 行为 。 当 然 ， 该 模型 偏重 于 Unix 风格 的 文件 系统 (我们 将 在 后 面 
的 小 节 看 到 Unix 风格 的 文件 系统 的 构成 )。 但 即使 这 样 ，Linux 仍然 可 以 支持 很 多 种 差异 很 大 的 
文件 系统 ， 从 DOS 系统 的 FAT 到 Windows 系统 的 NTFS， 再 到 各 种 Unix 风格 文件 系统 和 Linux 
特有 的 文件 系统 。 

VFS 抽象 层 之 所 以 能 衔接 各 种 各 样 的 文件 系统 ， 是 因为 它 定义 了 所 有 文件 系统 都 支持 的 、 
基本 的 、 概 念 上 的 接口 和 数据 结构 。 同 时 实际 文件 系统 也 将 自身 的 诸如 “如 何 打 开 文 件 ”, “目录 
是 什么 ”等 概念 在 形式 上 与 VFS 的 定义 保持 一 致 。 因 为 实际 文件 系统 的 代码 在 统一 的 接口 和 数 
据 结构 下 隐藏 了 具体 的 实现 细节 ， 所 以 在 VFS 层 和 内 核 的 其 他 部 分 看 来 ， 所 有 文件 系统 都 是 相 
同 的 ， 它 们 都 支持 像 文件 和 目录 这 样 的 概念 ， 同 时 也 支持 像 创 建文 件 和 删除 文件 这 样 的 操作 。 

内 核 通 过 抽象 层 能 够 方便 、 简 单 地 支持 各 种 类 型 的 文件 系统 。 实 际 文件 系统 通过 编程 提供 
VFS 所 期 望 的 抽象 接口 和 数据 结构 ， 这 样 ， 内 核 就 可 以 上 毫 不 费力 地 和 任何 文件 系统 协同 工作 ， 并 
上 且 这 样 提 供给 用 户 空 间 的 接口 ， 也 可 以 和 任何 文件 系统 无 锋 地 连接 在 一 起 ， 完 成 实际 工作 。 

其 实在 内 核 中 ， 除 了 文件 系统 本 身 外 ， 其 他 部 分 并 不 需要 了 解 文件 系统 的 内 部 细节 。 比 如 一 
个 简单 的 用 户 空间 程序 执行 如 下 的 操作 : 


ret = Write(tfd, buf, len}): 


该 系统 调用 将 buf 指针 指向 的 长 度 为 len 字 届 的 数据 写 人 文件 描述 符 得 对 应 的 文件 的 当前 
位 置 。 这 个 系统 调用 首先 被 一 个 通用 系统 调用 sys_write() 处 理 ，sys_write() 函数 要 找到 和 全 所 在 
的 文件 系统 实际 给 出 的 是 哪个 写 操 作 ， 然 后 再 执行 该 操作 。 实 际 文 件 系统 的 写 方 法 是 文件 系统 实 
现 的 一 部 分 ， 数 据 最 终 通 过 该 操作 写 入 介质 (或 执行 这 个 文件 系统 想 要 完成 的 写 动作 )。 图 13-2 
描述 了 从 用 户 空 间 的 write0 调用 到 数据 被 写 人 磁盘 介质 的 整个 流程 。 一 方面 ， 系 统 调用 是 通用 
VFS 接口 ， 提 供给 用 户 空间 的 前 端 : 另 一 方面 ， 系 统 调用 是 具体 文件 系统 的 后 端 ， 处 理 实现 细 


节 。 接 下 来 的 小 节 中 我 们 会 具体 看 到 VFS 抽象 模型 以 及 它 提供 的 接口 。 


用 户 空间 Vrs ( 庶 折 文件 系统 ) | 文件 系统 物理 介质 


图 13-2 ”writeO 调用 将 来 自用 三 空间 的 数据 流 ， 首 先 通过 VFS 的 通用 系统 调用 ， 
其 次 通过 文件 系统 的 特殊 写法 ， 最 后 写 人 物理 介质 中 
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13.3 Unix 文件 系统 
Unix 使 用 了 四 种 和 文件 系统 相关 的 传统 抽象 概念 : 文件 、 目 录 项 、 索 引 节 点 和 安装 点 


(mount point ) 。 

从 本 质 上 讲 文件 系统 是 特殊 的 数据 分 层 存 储 结构 ， 它 包含 文件 、 目 录 和 相关 的 控制 信息 。 文 
件 系统 的 通用 操作 包含 创建 、 删 除 和 安装 等 。 在 Unix 中 ， 文 件 系统 被 安装 在 一 个 特定 的 安装 点 
上 ， 该 安装 点 在 全 局 层次 结构 中 被 称 作 命名 空间 ， 所 有 的 已 安装 文件 系统 都 作为 根 文 件 系 统 树 
的 枝叶 出 现在 系统 中 。 与 这 种 单一 、 统 一 的 树 形成 鲜明 对 照 的 就 是 DOS 和 Windows 的 表现 ， 它 
们 将 文件 的 命名 空间 分 类 为 驱动 字母 ， 例 如 C:。 这 种 将 命名 空间 划分 为 设备 和 分 区 的 做 法 ， 相 
当 于 把 硬件 细节 “ 潭 露 ” 给 文件 系统 抽象 层 。 对 用 户 而 言 ， 如 此 的 描述 有 点 随意 ， 蕉 至 产生 混 
请 ， 这 是 Linux 统一 命名 空间 所 不 届 一 顾 的 。 

文件 其 实 可 以 做 一 个 有 序 字 节 串 ， 字 节 串 中 第 一 个 字 节 是 文件 的 头 ， 最 后 一 个 字 节 是 文件 的 
尾 。 每 一 个 文件 为 了 便于 系统 和 用 户 识别 ， 都 被 分 配 了 一 个 便于 理解 的 名 字 。 典 型 的 文件 操作 有 
读 、 写 、 创 建 和 删除 等 。Unix 文件 的 概念 与 面向 记录 的 文件 系统 (如 OpenVMS 的 File-11) 形 
成 鲜明 的 对 照 。 面 向 记录 的 文件 系统 提供 更 丰富 、 更 结构 化 的 表示 ， 而 简单 的 面向 字 节 流 抽象 的 
Unix 文件 则 以 简单 性 和 相当 的 灵活 性 为 代价 。 

文件 通过 目录 组 织 起 来 。 文 件 目录 好 比 一 个 文件 夹 ， 用 来 容纳 相关 文件 。 因 为 目录 也 可 以 包 
含 其 他 目录 ， 即 子 目 录 ， 所 以 目录 可 以 层 层 嵌 套 ， 形 成 文件 路 径 。 路 径 中 的 每 一 部 分 都 被 称 作 目 
录 和 条目 。“/home/wolfman/butter” 是 文件 路 径 的 一 个 例子 一 一 根 目 录 /， 目 录 home，wolfman 和 
文件 butter 都 是 目录 和 条目， 它们 统称 为 目录 项 。 在 Unix 中 ， 目 录 属 于 普通 文件 ， 它 列 出 包含 在 
其 中 的 所 有 文件 。 由 于 VFS 把 目录 当 作 文件 对 待 ， 所 以 可 以 对 目录 执行 和 文件 相同 的 操作 。 

Unix 系统 将 文件 的 相关 信息 和 文件 本 身 这 两 个 概念 加 以 区 分 ， 例 如 访问 控制 权限 、 大 小 、 
拥有 者 、 创 建 时间 等 信息 。 文 件 相 关 信 息 ， 有 时 被 称 作文 件 的 元 数据 (也 就 是 说 ， 文 件 的 相关 
数据 )， 被 存储 在 一 个 单独 的 数据 结构 中 ， 该 结构 被 称 为 索引 节点 〈inode)， 它 其 实 是 index node 
的 缩写 ， 不 过 近来 术语 “inode” 使 用 得 更 为 普遍 一 些 。 

所 有 这 些 信息 都 和 文件 系统 的 控制 信息 密切 相关 ， 文 件 系统 的 控制 信息 存储 在 超级 块 中 ， 超 
级 块 是 一 种 包含 文件 系统 信息 的 数据 结构 。 有 时 ， 把 这 些 收 集 起 来 的 信息 称 为 文件 系统 数据 元 ， 
它 集 单独 文件 信息 和 文件 系统 的 信息 于 一 身 。 

一 直 以 来 ，Unix 文件 系统 在 它们 物理 磁盘 布局 中 也 是 按照 上 述 概念 实现 的 。 比 如 说 在 磁盘 
上 ， 文 件 〈 目 录 也 属于 文件 ) 信息 按照 索引 节点 形式 存储 在 单独 的 块 中 ; 控制 信息 被 集中 存储 
在 磁盘 的 超级 块 中 ， 等 等 。Unix 中 文件 的 概念 从 物理 上 被 映射 到 存储 介质 。Linux 的 VFS 的 设 
计 目 标 就 是 要 保证 能 与 支持 和 实现 了 这 些 概念 的 文件 系统 协同 工作 。 像 如 FAT 或 NTFS 这 样 的 
非 Unix 风格 的 文件 系统 ， 虽 然 也 可 以 在 Linux 上 工作 ， 但 是 它们 必须 经 过 封装 ， 提 供 一 个 符合 
这 些 概念 的 界面 。 比 如 ， 即 使 一 个 文件 系统 不 支持 索引 节点 ， 它 也 必须 在 内 存 中 装配 索引 节点 结 
构 体 ， 就 像 它 本 身 包含 索引 节点 一 样 。 再 比如 ， 如 果 一 个 文件 系统 将 目录 看 做 一 种 特殊 对 象 ， 那 


全 近来 ，Linux 已 经 将 这 种 层次 化 概念 引 人 了 单个 进程 中 ， 每 个 进程 都 指定 一 个 唯一 的 命名 室 间 。 因 为 每 个 进程 
都 会 继承 父 进 程 的 命名 空间 (除非 是 特别 声明 的 情况 )， 所 以 所 有 进程 往往 都 只 有 一 个 全 局 命名 空间 。 
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么 要 想 使 用 VFS， 就 必须 将 目录 重新 表示 为 文件 形式 。 通常 ， 这 种 转换 需要 在 使 用 现场 (on the 
fly) 引入 一 些 特 殊 处 理 ， 使 得 非 Unix 文件 系统 能 够 兼容 Unix 文件 系统 的 使 用 规则 并 满足 VFS 
的 需求 。 这 种 文件 系统 当然 仍 能 工作 ， 但 是 其 带 来 的 开销 则 不 可 思议 (开销 太 大 了 )。 


13.4 ”VFS 对 象 及 其 数据 结构 


VFS 其 实 采 用 的 是 面向 对 象 9 的 设计 思路 ， 使 用 一 组 数据 结构 来 代表 通用 文件 对 象 。 这 些 数 
据 结构 类 似 于 对 象 。 因 为 内 核 纯粹 使 用 C 代码 实现 ， 没 有 直接 利用 面向 对 象 的 语言 ， 所 以 内 核 
中 的 数据 结构 都 使 用 C 语言 的 结构 体 实现 ， 而 这 些 结构 体 包含 数据 的 同时 也 包含 操作 这 些 数 据 
的 函数 指针 ， 其 中 的 操作 函数 由 有 具体 文件 系统 实现 。 

VFS 中 有 四 个 主要 的 对 象 类 型 ， 它 们 分 别 是 : 

* 超级 块 对 象 ， 它 代表 一 个 具体 的 已 安装 文件 系统 。 

“索引 节点 对 象 ， 它 代表 -一 个 具体 文件 。 

。 目录 项 对 象 ， 它 代表 一 个 目录 项 ， 是 路 径 的 一 个 组 成 部 分 。 

* 文件 对 象 ， 它 代表 由 进程 打开 的 文件 。 

注意 ， 因 为 VFS 将 目录 作为 一 个 文件 来 处 理 ， 所 以 不 存在 目录 对 象 。 回 忆 本 章 前 面 所 提 到 
的 目录 项 代表 的 是 路 径 中 的 一 个 组 成 部 分 ， 它 可 能 包括 一 个 普通 文件 。 换 名 话说， 目录 项 不 同 于 
目录 ， 但 目录 却 是 另 一 种 形式 的 文件 ， 明 白 了 吗 ? 

每 个 主要 对 象 中 都 包含 一 个 操作 对 象 ， 这 些 操作 对 象 描述 了 内 核 针 对 主要 对 象 可 以 使 用 的 
方法 : . 

。 super_operations 对 象 ， 其 中 包括 内 核 针对 特定 文件 系统 所 能 调用 的 方法 ， 比 如 write_ 

inode() 和 sync_fs() 等 方法 。 

* inode_operations 对 象 ， 其 中 包括 内 核 针 对 特定 文件 所 能 调用 的 方法 ， 比 如 create() 和 link0 

等 方法 。 

* dentry_operations 对 象 ， 其 中 包括 内 核 针 对 特定 目录 所 能 调用 的 方法 ， 比 如 d_compare() 和 

d_delete() 等 方法 。 

。 file_operations 对 象 ， 其 中 包括 进程 针对 已 打开 文件 所 能 调用 的 方法 ， 比 如 read0 和 write0 

等 方法 。 

操作 对 象 作为 一 个 结构 体 指针 来 实现 ， 此 结构 体 中 包含 指向 操作 其 父 对 象 的 函数 指针 。 对 于 
其 中 许多 方法 来 说 ， 可 以 继承 使 用 VFS 提供 的 通用 函数 ， 如 果 通 用 函数 提供 的 基本 功能 无 法 满 
足 需要 ， 那 么 就 必须 使 用 实际 文件 系统 的 独 有 方法 填充 这 些 函 数 指 针 ， 使 其 指向 文件 系统 实例 。 

再 次 提醒 ， 我 们 这 里 所 说 的 对 象 就 是 指 结构 体 ， 而 不 是 像 C++ 或 Java 那样 的 真正 的 对 象 数 
据 类 类 型 。 但 是 这 些 结构 体 的 确 代表 的 是 一 个 对 象 ， 它 含有 相关 的 数据 和 对 这 些 数据 的 操作 ， 所 
以 可 以 说 它们 就 是 对 象 。 


旨 人 们 时 常 忽 略 ， 甚 至 会 否认 ， 但 是 在 内 棱 中 确实 存在 很 多 利用 面向 对 象 思想 编程 的 例子 。 虽 然 内 核 开 发 者 可 
能 有 意 避 免 C++ 和 其 他 面向 对 象 语 言 ， 但 是 面向 对 象 的 思想 仍然 经 常 被 借鉴 一 一 虽然 C 语言 缺乏 面向 对 象 的 
机 制 。VES 就 是 一 个 利用 CC 代码 来 有 效 和 简洁 地 实现 OOP 的 例子 。 
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VFS 使 用 了 大 量 结构 体 对 象 ， 它 所 包括 的 对 象 远 远 多 于 上 面 提 到 的 这 几 种 主要 对 象 。 比 如 
每 个 注册 的 文件 系统 都 由 file_system_type 结构 体 来 表示 ， 它 描述 了 文件 系统 及 其 性 能 ; 另外 ， 
每 一 个 安装 点 也 都 用 vfsmount 结构 体 表 示 ， 它 包含 的 是 安装 点 的 相关 信息 ， 如 位 置 和 安装 标 


在 本 章 的 最 后 还 要 介绍 两 个 与 进程 相关 的 结构 体 ， 它 们 描述 了 文件 系统 以 及 和 进程 相关 的 文 


件 ， 分 别 是 f8_struct 结构 体 和 file 结构 体 。 


13.5 布 将 讨论 这 些 对 象 以 及 它们 在 VFS 层 的 实现 中 扮演 的 角色 ，。 


13.5 超级 块 对象 


各 种 文件 系统 都 必须 实现 超级 块 对 象 ， 读 对 象 用 于 存储 特定 文件 系统 的 信息 ， 通 常 对 应 于 存 
放 在 磁盘 特定 扇 区 中 的 文件 系统 超级 块 或 文件 系统 控制 块 〈 所 以 称 为 超级 块 对象 )。 对 于 并 非 基 
于 磁盘 的 文件 系统 〈 如 基于 内 存 的 文件 系统 ， 比 如 sysfs)， 它 们 会 在 使 用 现场 创建 超级 块 并 将 其 


保存 到 内 存 中 。 


超级 块 对 象 由 super block 结构 体 表 示 ， 定 义 在 文件 <linux/fs.h> 中 ， 下 面 给 出 它 的 结构 和 各 


个 域 的 描述 : 


struct super block | 
struct list head 
dew 七 
unsigned long 


unsigned char 

Unsigned char 

unsigned long long 
struct file system type 
struct super operations 
struct dquot operations 
struct quotactl copas 
struct export operations 
unasigned long 

unsigned long 

struct dentry 

struct rw semaphore 
struct Semaphore 

int 

int 

atomic 七 

void 

struct xattr handler 
struct list head 
struct list head 
etruct list head 

struct list head 

struct hlist head 
struct list head 

struct list head 

int 

struct block device 


s list; 
s_ devi 
3 blocksize; 


s blocksize bitae; 
s dirt; 

Ss maxbytes; 

3 type; 

S_OP ; 

*dg_ op; 

*s_ qcop; 

* exXport op: 
s flags; 

s magic; 

*s root,; 

s_ Umount 

Ss lock; 
s_count,; 

Ss need sync; 
s active; 
#9ecurity; 


s dentry lu; 


s nr dentry unused; 


二 号 bdev; 


ff 二 
六 
让 
让 
二 
A 
站 半 
ff 二 
六 
六 二 
ff 


名 73 全 


” 指 癌 所 有 超级 块 的 链表 */ 


设备 标识 符 */ 
以 字 节 为 单位 的 块 大 小 */ 


以 位 为 单位 的 块 大 小 */ 
修改 (上 脏 ) 标志 */ 
文件 大 小 上 限 */ 
文件 系统 类 型 */ 
超级 块 方法 */ 
磁盘 限 烙 方法 */ 

限额 控制 方法 */ 


”导出 方法 */ 


挂 载 标 志 */ 
文件 系统 的 幻 数 */ 
目录 挂 载 点 */ 

印 载 信和 号 量 */ 
超级 块 信号 量 */ 
超级 块 引 用 计数 */ 
尚未 同步 标志 */ 
话 动 引用 计数 */ 
安全 模块 */ 
扩展 的 属性 操作 */ 
inodes 链表 */ 
及 数据 链表 */ 

回 写 链表 */ 

更 多 回 写 的 链表 */ 
匿名 目录 项 */ 


/* 被 分 配 文件 链表 */ 


站 
站 友 


未 被 使 用 目录 项 链表 */ 
链表 中 目录 项 的 数目 */ 
相关 的 块 设备 */ 
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struct mtd info *s mtd; /* 存储 磁盘 信息 */ 
struct list head sa instances; jx 该 类 型 文件 系统 */ 
struct quota info s dquot; /* 限额 相关 选项 */ 
int Ss frozen; /jw frozen 标志 位 */ 
wait Sueue head t s wait unfrozen,; /A* 冻结 的 等 待 队 列 * / 
char s id[32]; fw 文本 名 字 */ 
void *s fs info; /* 文件 系统 特殊 信息 */ 
fmode t sa_mode; /* 安装 权限 */ 
struct semaphore 9 vfs rename sem; /* 重 命 名 信号 量 */ 
u32 s time gran; /* 时 间 惟 粒度 */ 
char *s subtype; fw 子 类 型 名 称 */ 
char *g options; /xy 已 存 安装 选项 */ 


}; 


创建 、 管 理 和 撤销 超级 块 对 象 的 代码 位 于 文件 fs/super.c 中 。 超 级 块 对 象 通过 alloc_super() 
函数 创建 并 初始 化 。 在 文件 系统 安装 时 ， 文 件 系统 会 调用 该 国 数 以 便 从 磁盘 读 取 文 件 系 统 超级 
块 ， 并 且 将 其 信息 填充 到 内 存 中 的 超级 块 对 象 中 。 


13.6 超级 块 操作 


超级 块 对 象 中 最 重要 的 一 个 域 是 s_op， 它 指向 超级 块 的 操作 函数 表 。 超 级 块 操作 函数 表 由 
super_operations 结构 体 表示 ， 定 义 在 文件 <linux/fs.h> 中 ， 其 形式 如 下 : 


struct super operations I 
struct inode *{*alloec inode})(struct super block *sb); 
void (*destroy inode)(struct inode *}; 
void {*dirty inode) {struct inode *}); 
int (*write inode) (struct inode *, int); 
void {*drop inode) (struct inode *); 
void {*delete inode) (struct inode *};} 
void {*put super) {struct super block *); 
void {(*write super) {struct super block *); 
int (*gsynce fs)j{struct super block *sb, int wait); 
int (*freeze fs) (struct super block *}); 
int (*unfreeze fs) (struct super block *); 
int (*statfs) {struct dentry *, struct kstatfs *); 
int (*remount fs) {satruct super block *, int *, char *);} 
void {*clear inode) (struct inode *);} 
void {(*umount begin) (struct super block *);} 
int (*show options) (struct seq file *, gtruct vfsmount *); 
int (*gshow stats)(struct seq file *, struct vfsmount *); 
s3ize t (*quota read}lstruct super block *, int, char *, size t, loff t}; 
S812Ze 七 (*quota write)(struct super block *, int, const char *, size 七 Joff t); 
int (*bdev try to free page) (satruct super block*, struct page*, gfp t); 


}; 

该 结构 体 中 的 每 一 项 都 是 一 个 指向 超级 块 操 作 函 数 的 指针 ， 超 级 块 操作 函数 执行 文件 系统 和 
索引 节点 的 低层 操作 。 

当 文 件 系统 需要 对 其 超级 块 执行 操作 时 ， 首 先 要 在 超级 块 对 象 中 寻找 需要 的 操作 方 靶 。 比 
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如 ， 如 果 一 个 文件 系统 要 写 自 己 的 超级 块 ， 需 要 调用 : 

sb->S8 Op->write super{sb).; 

在 这 个 调用 中 ，sb 征 指 站 文件 系统 超级 块 的 指针 ， 褒 着 该 指针 进入 超级 块 操作 国 数 表 s_op， 
并 从 表 中 取得 希望 得 到 的 write_super0 函数 ， 该 函数 执行 号 人 超级 块 的 实际 操作 。 注 意 ， 尽 管 
write_super() 方法 来 目 超级 块 ， 但 是 在 调用 时 ， 还 是 要 把 超级 块 作为 参数 传递 给 它 ， 这 是 因为 C 
语言 中 缺少 对 面向 对 象 的 支持 ， 而 在 C++ 中 ， 使 用 如 下 的 调用 就 足够 了 : 

sbh.write superl(); 

由 于 在 C 语言 中 无 法 直接 得 到 操作 函数 的 父 对 象 ， 所 以 必须 将 父 对 象 [ 以 参数 形式 传 给 操作 函数 。 

下 面 给 出 super_operation 中 ， 超 级 块 操作 函数 的 用 法 。 


s struct inode *alloc inode (struct super block *sb) 


在 给 定 的 超级 块 下 创建 和 初始 化 一 个 新 的 索引 市 点 对 象 。 


s void destroy inodetstruct inode *inode) 


用 于 释放 给 定 的 索引 节点 。 


se void dirty inode (struct inode *inode) 

VFS 在 索引 节点 脏 ( 被 修改 ) 时 会 调用 此 函数 。 日 志文 件 系统 (如 ext3 和 ext4) 执行 该 函 
数 进行 日 志 更 新 。 

es void write inodel(lstruct inode *inode,int wait) 


用 于 将 给 定 的 索引 节点 写 人 磁盘 。wait 参数 指明 写 操作 是 否 需 要 同步 。 


VOid drop inode(tstruct inode *inode) 


在 最 后 一 个 指向 索引 节点 的 引用 被 释放 后 ，VFS 会 调用 该 函数 。VEFS 只 需要 简单 地 删除 这 
个 索引 节点 后 ， 普 通 Unix 文件 系统 就 不 会 定义 这 个 国 数 了 。 


s。 void delete_inode (struct inode *inode) 

用 于 从 磁盘 上 删除 给 定 的 索引 市 点 。 

es void Put_super (struct super block *sb) 

在 件 载 文件 系统 时 由 VFS 调用 ， 用 来 释放 超级 块 。 调 用 者 必须 一 直 持 有 s_lock 锁 。 


® VOid write superl(lstruct super block *sb) 


用 给 定 的 超级 块 更 新 磁盘 上 的 超级 块 。VFS 通过 该 函数 对 内 存 中 的 超级 块 和 磁盘 中 的 超级 
块 进行 同步 。 调 用 者 必须 一 直 持 有 s_lock 锁 。 


* int sync fs(struct super block *sb, int wait) 


使 文件 系统 的 数据 元 与 磁盘 上 的 文件 系统 同步 。wait 参数 指定 操作 是 否 同步 。 
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* Void write super lockfs{(struct super block *sb) 


首先 禁止 对 文件 系统 做 改变 ， 再 使 用 给 定 的 超级 块 更 新 磁盘 上 的 超级 块 。 目 前 LVM( 逻辑 着 
标 管理 ) 会 调用 该 函数 。 
® void unlockfs(struct super block *sb) 


对 文件 系统 解除 锁定 ， 它 是 write_super_lockfs( 的 逆 操 作 。 


® int statfslstruct super block *esb,astruct statfs *statfs) 


VFS 通过 调用 该 函数 获取 文件 系统 状态 。 指 定 文件 系统 相关 的 统计 信息 将 放置 在 statfs 中 。 


ss int remount fst{tstruct super block *sb,int *flags,char *data) 


当 指 定 新 的 安装 选项 重新 安装 文件 系统 时 ，VFS 会 调用 该 函数 。 调 用 者 必须 一 直 持 有 s_ 
lock 销 。 


* void clear inode(struct inode *jnode) 


VFS 调用 该 函数 释放 索引 市 操 ， 并 清空 包含 相关 数据 的 所 有 页 面 。 


* void umount begintlstruct super block *sb) 


VFS 调用 该 函数 中 断 安装 操作 。 该 函数 被 网 络 文件 系统 使 用 ， 如 NFS。 

所 有 以 上 国 数 都 是 由 VEFS 在 进程 上 下 文中 调用 。 除 了 dirty_inode0, 其 他 函数 在 必要 时 都 可 
以 阻塞 。 

这 其 中 的 一 些 函 数 是 可 选 的 。 在 超级 块 操作 表 中 ， 文 件 系 统 可 以 将 不 需要 的 函数 指针 设置 成 
NULL。 如 果 VFS 发 现 操 作 函 数 指针 是 NULL， 那 它 要 么 就 会 调用 通用 函数 执行 相应 操作 ， 要 么 
什么 也 不 做 ， 如 何 选 择 取决 于 具体 操作 。 


13.7 索引 节点 对 象 


索引 节点 对 象 包含 了 内 核 在 操作 文件 或 目录 时 需要 的 全 部 信息 。 对 于 Unix 风格 的 文件 系统 
来 说 ， 这 些 信息 可 以 从 磁盘 索引 市 点 直接 读 人 。 如 果 一 个 文件 系统 设 有 索引 节点 ， 那 么 ， 不 管 这 
些 相关 信息 在 磁盘 上 是 怎么 存放 的 ， 文 件 系统 都 必须 从 中 提取 这 些 信息 。 没 有 索引 节点 的 文件 系 
统 通常 将 文件 的 描述 信息 作为 文件 的 一 部 分 来 存放 。 这 些 文件 系统 与 Unix 风格 的 文件 系统 不 同 ， 
没有 将 数据 与 控制 信息 分 开 存放 。 有 些 现代 文件 系统 使 用 数据 库 来 存储 文件 的 数据 。 不 管 哪 种 情 
况 、 采 用 哪 种 方式 ， 索 引 布 感 对 象 必 须 在 内 存 中 创建 ， 以 便于 文件 系统 使 用 。 

索引 市 点 对 象 由 inode 结构 体 表 示 ， 它 定义 在 文件 <linux/fs.h> 中 ， 下 面 给 出 它 的 结构 体 和 
各 项 的 描述 . 


struct inode { 


struct hlist node i hash; /xs 散 列表 */ 
‘struct list head i list; /* 索引 节点 链表 */ 
struct list head i sb list; /+ 超级 块 链表 */ 
struct list head i dentry; /* 目录 项 链表 */ 


unsigned long i ino; /* 节点 号 */ 
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}; 
个 索引 节点 代表 文件 系统 中 (但 是 索引 市 点 仅 当 文件 被 访问 时 ， 才 在 内 存 中 创建 〉 的 一 个 
文件 ， 它 也 可 以 是 设备 或 管道 这 样 的 特殊 文件 。 因 此 索引 节点 结构 体 中 有 一 些 和 特殊 文件 相关 的 
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ia 七 
可 工本 七 
kdev 七 
U64 
loff t 
Begqcount 七 
struct timespec 
struct timespec 
struct timespec 
unsigned int 
blkcnt 七 
unsigned short 
umode 七 
spinlock t 
struct rw semaphore 
struct semaphore 
struct inode operations 
struct file coperations 
struct super block 
Btruct file lock 
struct address space 
struct address space 
struct dquot 
struct list head 
union { 
struct pipe inode info 
struct block device 
struct cdeyv 
}:; 
unsigned long 
struct dnotify struct 
struct list head 
struct mtex 
unsigned long 
unsigned long 
unsigned int 
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void 
void 


i count; 

i nlink; 

i uid; 
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i rdev; 

i version; 
i size; 

i size Segqcount; 
i atime; 

i mtime; 

i ctimes; 

i blkbitse:; 
i blocks; 

i bytes; 

i mode; 

i lock:; 

i alloc sem; 
i sem; 
*i_op; 

*i fop; 

*i Bb; 

二 二 flock,; 
*i_mapping; 
i data; 


*i dquot [MAXQUOTAS] ; 


i devices; 


*1 pipe; 
*i bdev; 
*i Cdev,; 


i dnotify mask; 
*i dnotify; 
inotify watches; 
inotify mtex; 

i state; 

dirtied when; 

i flags; 

i writecount;} 

*1i Security; 

*i private; 
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引用 计数 */ 

硬 链 接 数 */ 

使 用 者 的 ia */ 

使 用 组 的 ia */ 
实际 设备 标识 符 */ 
版 本 号 */ 

以 字 节 为 单位 的 文件 大 小 */ 
对 i size 进行 串 行 计数 */ 
茸 后 访问 时 间 */ 

最 后 修改 时 间 */ 

最 后 改变 时 间 */ 

以 位 为 单位 的 块 大 小 */ 
文件 的 块 数 */ 

使 用 的 字 节 数 */ 

访问 权限 */ 
自 旋 锁 */ 

嵌 人 二 sem 内 部 */ 
索引 闻 点 信号 量 */ 
索引 节点 操作 表 */ 

缺 省 的 索引 节点 操作 */ 
相关 的 超级 块 */ 

文件 锁链 表 */ 
相关 的 地 址 上 映射 */ 
设备 地 址 映射 */ 

索引 节点 的 磁盘 限额 */ 
块 设备 链表 */ 


管道 信息 */ 
块 设备 驱动 */ 
字符 设备 旦 动 */ 


目录 通知 掩 码 */ 

目录 通知 */ 

索引 节点 通知 监测 链表 */ 
保护 inotify watches */ 
状态 标志 */ 

第 一 次 弄 脏 数据 的 时 间 */ 
文件 系统 标志 .*/ 
写 者 计数 */ 

安全 模块 */ 

fs 私有 指针 */ 


项 ， 比 如 i_pipe 项 就 指向 一 个 代表 有 名 管道 的 数据 结构 ，i_bdev 指向 块 设 备 结构 体 ，i_cdev 指 问 
字符 设备 结构 体 。 这 三 个 指针 被 存放 在 一 个 公用 体 中 ， 因 为 一 个 给 定 的 索引 市 点 每 次 只 能 表示 三 
者 之 一 《或 三 者 均 不 )。 


有 时 ， 某 些 文件 系统 可 能 并 不 能 完整 地 包含 索引 节点 结构 体 要 求 的 所 有 信息 。 举 个 例子 ， 有 
的 文件 系统 可 能 并 不 记录 文件 的 访问 时 间 ， 这 时 ， 该 文件 系统 就 可 以 在 实现 中 选择 任意 合适 的 办 
法 来 解决 这 个 问题 。 它 可 以 在 i atime 中 存储 0， 或 者 让 i atime 等 于 imtime， 或 者 只 在 内 存 中 


更 新 i_atime 而 不 将 其 写 回 磁盘 ， 或 者 由 文件 系统 的 实现 者 来 决定 。 
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索引 节点 操作 


和 超级 块 操 作 一 样 ， 索 引 节 点 对 象 中 的 inode_operations 项 也 非常 重要 ， 因 为 它 描述 了 VEFS 
用 以 操作 索引 市 点 对 象 的 所 有 方法 ， 这 些 方法 由 文件 系统 实现 。 与 超级 块 类 似 ， 对 索引 市 点 的 操 
作 调 用 方式 如 下 : 


i->i op->truncate (i) 


i 指 问 给 定 的 索引 市 点 ，trmuncate() 函数 是 由 索引 市 点 i 所 在 的 文件 系统 定义 的 。inode_ 
operations 结构 体 定义 在 文件 <linux/fs.h> 中: 


atruct inode operations { 


}} 


int (*create) (struct inode *,struct dentry *,int, struct nameidata *); 
struct dentry * (*lookup)} (struct inode *,struct dentry 二 struct nameidata *); 
int (*link) {struct dentry *,struct inode *,struct dentry *); 
int (*unlink}) (struct inode *,struct dentry *); 
int (*symlink) (struct inode *,struct dentry *,const char *)} 
int {*mkdir) {struct inode *,struct dentry *,int); 
int (*rmdir) {struct inode *,atruct dentry *}); 
int (*mknod) (struct inode *,struct dentry *,int,dev t);} 
int (*rename) (struct inode 二 struct dentry *, 
struct inode 二 struct dentry *}); 
int (*readlink) (struct dentry *, char user *,int}); 
void * (*follow link) (struct dentry *, struct nameidata *);} 
void {*put link) {struct dentry *, struct nameidata *, void 二 ) 
void (*truncate) (struct inode #*); 
int {*permission) (struct inode *, int)}); 
int (*setattr) {struct dentry *, struct iattr 二 ) 
int {*getattr) {struct vfismount *mnt, struct dentry 二 struct kstat *); 
int (*setxattr) (struct dentry *, const char *,const void *,size t,int); 
ssize 七 (*getxattr) (struct dentry *, const char *, void *, size t);} 
ssize t (*listxattr) (struct dentry *, char *, size t); 
int (*removexattr) {struct dentry *, const char *); 
void (*truncate range) (struct inode *, loff t, loff +t); 
long (*fallocate})(struct inode *inode, int mode, loff t offget, 
loff 七 len}); 
int (*fiemap} (struct inode *, struct fiemap extent info *, ué4 start, 
u64 len}; 


下 面 这些 接 口 由 各 种 函数 组 成 ， 在 给 定 的 节点 上 ， 可 能 由 VFS 执行 这 些 国 数 ， 也 可 能 由 有 具 
体 的 文件 系统 执行 : 


int create(struct inode *dir,struct dentry *dentry, int mode) 


VFS 通过 系统 调用 create() 和 open( 来 调用 该 函数 ， 从 而 为 dentry 对 象 创建 一 个 新 的 索引 市 
点 。 在 创建 时 使 用 mode 指定 的 初始 模式 。 


® satruct dentry * lookuplstruct inode *#dir,struct dentry *dentry) 
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该 函数 在 特定 目录 中 寻找 索引 节点 ， 该 索引 市 点 要 对 应 于 denrty 中 给 出 的 文件 名 。 


as int linkl(struct dentry *o0lgd dentry, 
struct jnode *dir, 
Btruct dentry *dentry) 


该 函数 被 系统 调用 link() 调用 ， 用 来 创建 硬 连 接 。 硬 连接 和 名称 由 dentry 参数 指定 ， 连 接 对 象 
是 dir 目录 中 old_dentry 目录 项 所 代表 的 文件 。 


s int unlinktstruct inode *dir,struct dentry *dentry) 


该 函数 被 系统 调用 unlink() 调用 ， 从 目录 dir 中 删除 由 目录 项 dentry 指定 的 索引 节点 对 象 。 


s int symlinklstruct inode *dir, 
atruct dentry *dentry, 
const char *syrmmame) 


该 函数 被 系统 调用 symlik() 调用 ， 创 建 符号 连接 。 该 符号 连接 名 称 由 symname 指定 ， 连 接 
对 象 是 dir 目录 中 的 dentry 目录 项 。 
s int mdir{struct inode *dir, 


struct dentry *dentry, 
int mode) 


该 函数 被 系统 调用 mkdir() 调用 ， 创 建 一 个 新 目录 。 创 建 时 使 用 mode 指定 的 初始 模式 。 


* int rmilirlstruct inode wdir, 
Btruct dentry *dentry) 


该 函数 被 系统 调用 rmdir() 调用 ， 删 除 dir 目录 中 的 dentry 目录 项 代表 的 文件 。 


int mknodtlstruct inode #*dir, 
struct dentry *dentry, 
int mode ,dev 七 rdev) 


该 函数 被 系统 调用 mknod() 调用 ， 创 建 特殊 文件 (设备 文件 、 命 名 管道 或 套 接 字 )。 要 创建 
的 文件 放 在 dir 目录 中 ， 其 目录 项 为 dentry， 关 联 的 设备 为 rdev， 初 始 权 限 由 mode 指定 。 
而 nt OA inode *old dir, 
Btruct dentry *olgd dentry, 


struct inode *new dir, 
struct dentry *new dentry) 


VFS 调用 该 函数 来 移动 文件 。 文 件 源 路 径 在 old_dir 目录 中 ， 源 文件 由 old_dentry 目录 项 指 
定 ， 目 标 路 径 在 new_dir 目录 中 ， 目 标 文 件 由 new_dentry 指定 。 


§ int readlink{struct dentry *dentry, 
char *buffer,int buflen) 


该 函数 被 系统 调用 readlink() 调用， 拷贝 数据 到 特定 的 缓冲 buffer 中 。 措 由 的 数据 来 自 
dentry 指定 的 符号 连接 ， 拷贝 大 小 最 大 可 达 buflen 字 节 。 


se int follow link(struct dentry *dentry, 
struct nameidata *nd) 


诬 科 福 余 居 统 a 


该 函数 由 VFS 调用 ， 从 一 个 符号 连接 查找 它 指 加 的 索引 节点 。 由 dentry 指向 的 连接 被 解析 ， 
其 结果 存放 在 由 nd 指 阿 的 nameidata 结构 体 中 。 


es int put link(struct dentry *dentry, 
struct nameidata *nd) 


在 follow_link 0 调用 之 后 ， 该 函数 由 VFS 调用 进行 清除 工作 。 


Void truncate{struct inode *inode) 


该 函数 由 VFS 调用 ， 修 改 文件 的 大 小 。 在 调用 前 ， 索 引 市 点 的 i_size 项 必须 设置 为 预期 的 大 小 。 


s int permission{(struct inode *inode , int magsk) 


该 函数 用 来 检查 给 定 的 inode 所 代表 的 文件 是 否 允 许 特定 的 访问 模式 。 如 果 人 允许 特定 的 访 
问 模式 ， 返 回 零 ， 否 则 返回 负 值 的 错误 码 。 多 数 文 件 系统 都 将 此 区 域 设置 为 NULL， 使 用 VFS 
提供 的 通用 方法 进行 检查 。 这 种 检查 操作 仅仅 比较 索引 节点 对 象 中 的 访问 模式 位 是 否 和 给 定 的 
mask 一 致 。 比 较 复 杂 的 系统 〈 比 如 支持 访问 控制 链 (ACLS) 的 文件 系统 )， 需 要 使 用 特殊 的 
permission() 方法 。 


ss int setattr(lstruct dentry *dentry, 
struct iattr *attr) 


该 函数 被 notify_change() 调用 ， 在 修改 索引 节点 后 ， 通 知 发 生 了 “改变 事件 ”。 


ss int getattrlstruct vismount *mnt, 
struct dentry *dentry, 
struct kstat *stat) 


在 通知 索引 节点 需要 从 磁盘 中 更 新 时 ，VFS 会 调用 该 函数 。 
扩展 属性 允许 key/value 这 样 的 一 对 值 与 文件 相关 联 。 
® int setxattrlstruct dentry *dentry, 

const char *name, 


const void *value, 
Bize t size,int flags) 


该 函数 由 VFS 调用 ， 给 dentry 指定 的 文件 设置 扩展 属性 。 属 性 名 为 name, 值 为 value。 


® SSize t getxattrlstruct dentry *dentry, 
const char *name, 
void *value,size 七 size) 


该 函数 由 VFS 调用 ， 向 value 中 拷贝 给 定 文件 的 扩展 属性 name 对 应 的 数值 。 


* Ssize t listxattrlstruct dentry *dentry, 
char *list ,size t size) 


该 函数 将 特定 文件 的 所 有 属性 列表 拷贝 到 一 个 缓冲 列表 中 。 


® int removexattrlstruct dentry *dentry ， 
Const char *name) 
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该 函数 从 给 定 文件 中 删除 指定 的 属性 。 


13.9 目录 项 对 象 

VEFS 把 目录 当 作 文件 对 待 ， 所 以 在 路 径 /bin/vi 中 ，bin 和 vi 都 属于 文件 一 bin 是 特殊 的 目录 文 
件 而 vi 是 一 个 普通 文件 ， 路 径 中 的 每 个 组 成 部 分 都 由 一 个 索引 节点 对 象 表 示 。 虽 然 它 们 可 以 统一 由 
索引 节点 表示 ， 但 是 VFS 经 常 需要 执行 目录 相关 的 操作 ， 比 如 路 径 名 查找 等 。 路 径 名 查找 需要 解析 
路 径 中 的 每 一 个 组 成 部 分 ， 不 但 要 确保 它 有 效 ， 而 且 还 需要 再 进一步 寻找 路 径 中 的 下 一 个 部 分 。 

为 了 方便 查找 操作 ，VFS 引入 了 目录 项 的 概念 。 每 个 dentry 代表 路 径 中 的 一 个 特定 部 分 。 
对 前 一 个 例子 来 说 ，/、bin 和 vi 都 属于 目录 项 对 象 。 前 两 个 是 目录 ， 最 后 一 个 是 普通 文件 。 必 须 
明确 一 点 : 在 路 径 中 〈 包 插 普 通 文 件 在 内 )， 每 一 个 部 分 痢 是 目录 项 对 象 。 解 析 一 个 路 径 并 遇 历 
其 分 量 绝 非 简 单 的 演练 ， 它 是 耗 时 的 、 常 规 的 字符 串 比较 过 程 ， 执 行 耗 时 、 代 码 药 到 。 目 录 项 对 
象 的 引入 使 得 这 个 过 程 更 加 简单 。 

目录 项 也 可 包 插 安装 点。 在 路 径 /mnt/cdrom/foo 中 ， 构 成 元 素 /、mnt、cdrom 和 foo 都 属于 
目录 项 对 象 。VFS 在 执行 目录 操作 时 (如果 需 要 的 话 ) 会 现场 创建 目录 项 对 象 。 

目录 项 对 象 由 dentry 结构 体 表示 ， 定 义 在 文件 <linux/dcache.h> 中 。 下 面 给 出 该 结构 体 和 其 
中 各 项 的 描述 : 


struct dentry | 


atomic t d count; /* 使 用 记 数 */ 
unsigned int d flags; /* 目录 项 标识 */ 
spinlock t d lock; /+ 单 目 杂项 镇 */ 


1int 
struct inode 


d mounted; 


* inode; 


/* 是 登录 点 的 目录 项 吗 ? */ 
/* 相关 联 的 索引 和 点 */ 


struct hlist node d hash; /* 散 列表 */ 
struct dentry *d Parent :; /* 父 目 录 的 目录 项 对 象 */ 
struct qstr d_name; /* 目录 项 名 称 */ 
struct list head d_lru; /* 未 使 用 的 链表 */ 
union { 
struct list head d chilad; /* 目录 项 内 部 形成 的 链表 */ 
struct rcu head d reu; /er RCU 加 锁 */ 
} a ui 
struct list head d subdirs,; /* 子 目录 链表 */ 
struct list head d alias;} /* 索引 节点 别名 链表 */ 
unsigned long d time; /* 重 置 时 间 */ 
struct dentry operations *d op; 1/* 目录 项 操作 指针 */ 
struct super block *d_sb; /* 文 忻 的 超级 块 */ 


void *dG_ fsdata.; /* 文件 系统 特有 数据 */ 
unsigned char d_iname [DNAME_INLINE LEN MIN]; /* 短文 忻 和 名 */ 


}; 


与 前 面 的 两 个 对 象 不 同 ， 目 录 项 对 象 没 有 对 应 的 磁盘 数据 结构 ，VFS 根据 字符 串 形 式 的 路 
径 名 现场 创建 它 。 而 且 由 于 目录 项 对 象 并 非 真正 保存 在 磁盘 上 ， 所 以 目录 项 结构 体 设 有 龙 否 被 修 
改 的 标志 〈 也 就 是 是 否 为 胜 、 是 否 需要 写 回 磁盘 的 标志 )。 


13.9.1 目录 项 状态 
目录 项 对 象 有 三 种 有 效 状态 : 被 使 用 、 未 被 使 用 和 负 状 态 。 
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一 个 被 使 用 的 目录 项 对 应 一 个 有 效 的 索引 市 点 〈 即 d_inode 指向 相应 的 索引 节点 ) 并 且 表 明 
该 对 象 存在 一 个 或 多 个 使 用 者 〈 即 d_count 为 正 值 )。 一 个 目录 项 处 于 被 使 用 状态 ， 意 味 着 它 正 
被 VFS 使 用 并 且 指 向 有 效 的 数据 ， 因 此 不 能 被 丢弃 。 

一 个 未 被 使 用 的 目录 项 对 应 一 个 有 效 的 索引 节点 〈d_inode 指向 一 个 索引 节点 )， 但 是 应 指 
明 VFS 当前 并 未 使 用 它 〈d_count 为 0)。 该 目录 项 对 象 仍然 指向 一 个 有 效 对 象 ， 而 且 被 保留 在 组 
存 中 以 便 需 要 时 再 使 用 它 。 由 于 该 目录 项 不 会 过 早 地 被 撤销 ， 所 以 以 后 再 需要 它 时 ， 不 必 重 新 创 
建 ， 与 未 缓存 的 目录 项 相 比 ， 这 样 使 路 径 查 找 更 迅速 。 但 如 果 要 回收 内 存 的 话 ， 可 以 撤销 未 使 用 
的 目录 项 。 

一 个 负 状 态 的 目录 项 日 没 有 对 应 的 有 效 索 引 节 点 (d_inode 为 NULL)， 因 为 索引 节点 已 被 删 
除了 ， 或 路 径 不 再 正确 了 ， 但 是 目录 项 仍然 保留 ， 以 便 快 速 解析 以 后 的 路 径 查 询 。 比 如 ， 一 个 守 
护 进程 不 断 地 去 试图 打开 并 读 取 一 个 不 存在 的 配置 文件 。open() 系统 调用 不 断 地 返回 ENOENT， 
直到 内 核 构 建 了 这 个 路 径 、 遍 历 磁盘 上 的 目录 结构 体 并 检查 这 个 文件 的 确 不 存在 为 止 。 即 便 这 
个 失败 的 查找 很 浪费 资源 ， 但 是 将 负 状 态 缓存 起 来 还 是 非常 值得 的 。 虽 然 负 状 态 的 目录 项 有 些 用 
处 ,但 是 如 果 有 和 需要， 可 以 撤销 它 ， 因 为 毕竟 实际 上 很 少 用 到 它 。 

目录 项 对 象 释 放 后 也 可 以 保存 到 slab 对 象 缓存 中 去 ， 这 点 在 第 12 章 讨论 过 。 此 时 ， 任 何 
VFS 或 文件 系统 代码 都 没有 指向 该 目录 项 对 象 的 有 效 引 用 。 


13.9.2 ”目录 项 缓存 


如 果 VFS 层 遍 历 路 径 名 中 所 有 的 元 素 并 将 它们 逐个 地 解析 成 目录 项 对 象 ， 还 要 到 达 量 深层 
目录 ， 将 是 一 件 非常 费力 的 工作 ， 会 浪费 大 量 的 时 间 。 所 以 内 核 将 目录 项 对 象 缓存 在 目录 项 缓存 
(简称 dcache ) 中 。 

目录 项 缓存 包括 三 个 主要 部 分 : 

“被 使 用 的 ”目录 项 链表 。 访 链表 通过 索引 节点 对 象 中 的 i_dentry 项 连接 相关 的 索引 节点 ， 

因为 一 个 给 定 的 索引 节点 可 能 有 多 个 链接 ， 所 以 就 可 能 有 多 个 目录 项 对 象 ， 因 此 用 一 个 链 

表 来 连接 它们 。 

*“ 最 近 被 使 用 的 ”双向 链表 。 读 链表 含有 未 被 使 用 的 和 负 状 态 的 目录 项 对 象 。 由 于 该 链 总 

是 在 头 部 插入 目 录 项 ， 所 以 链 头 节点 的 数据 总 比 链 尾 的 数据 要 新 。 当 内 核 必 须 通 过 删除 节 

点 项 回收 内 存 时 ， 会 从 链 尾 删 除 节点 项 ， 因 为 尾部 的 节点 最 旧 ， 所 以 它们 在 近期 内 再 次 被 

使 用 的 可 能 性 最 小 。 | 

* 散 列 表 和 相应 的 散 列 函 数 用 来 快速 地 将 给 定 路 径 解析 为 相关 目录 项 对 象 。 

散 列表 由 数组 dentry_hashtable 表示 ， 其 中 每 一 个 元 素 都 是 一 个 指向 具有 相同 键 值 的 目录 项 
对 象 链 表 的 指针 。 数 组 的 大 小 取决 于 系统 中 物理 内 存 的 大 小 。 

实际 的 散 列 值 由 d_hash() 函数 计算 ， 它 是 内 核 提供 给 文件 系统 的 唯一 的 一 个 散 列 函 数 。 

查找 散 列 表 要 通过 d_lookup( 函数 ， 如 果 读 函数 在 dcache 中 发 现 了 与 其 相 匹 配 的 目录 项 对 
象 ， 则 匹配 的 对 象 被 返回 ; 否则 ， 返 回 NULL 指针 。 


合 ”这 个 名 字 容 易 产生 误导 ， 其 实 它 和 任何 负数 或 负 状 态 并 没有 联系 。 更 准确 的 名 称 应 该 是 无 效 目录 项 。 
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举例 说 明 ， 假 设 你 需要 在 自己 目录 中 编译 一 个 源 文件 ，/home/dracula/src/the_sun_sucks.c, 
每 一 次 对 文件 进行 访问 (比如 说 ， 首 先 要 打开 它 ， 然 后 要 存储 它 ， 还 要 进行 编译 等 )，VFS 都 必 
须 沿 着 峰 讲 的 目录 依次 解析 全 部 路 径 : /、home、dracula、src 和 最 终 的 the_sun_sucks.c。 为 了 各 
免 每 次 访问 该 路 径 名 都 进行 这 种 耗 时 的 操作 , VFS 会 先 在 目录 项 缓存 中 搜索 路 径 名 ， 如 果 找 到 了 ， 
就 无 须 花 费 那么 大 的 力气 了 。 相 反 ， 如 果 该 目录 项 在 目录 项 缓存 中 并 不 存在 ，VFS 就 必须 自己 通 
过 遍历 文件 系统 为 每 个 路 径 分 量 解析 路 径 ， 解 析 完 毕 后 ， 再 将 目录 项 对 象 加 入 dcache 中 ， 以 便 
以 后 可 以 快速 查找 到 它 。 

而 dcache 在 一 定 意义 上 也 提供 对 索引 节点 的 缓存 ， 也 就 是 icache。 和 目录 项 对 象 相关 的 索 
引 节 点 对 象 不 会 被 释放 ， 因 为 目录 项 会 让 相关 索引 节点 的 使 用 计数 为 正 ， 这 样 就 可 以 确保 索引 节 
点 留 在 内 存 中 。 只 要 目录 项 被 缓存 ， 其 相应 的 索引 节点 也 就 被 缓存 了 。 所 以 像 前 面 的 例子 ， 只 要 
路 径 名 在 缓存 中 找到 了 ， 那 么 相应 的 索引 节点 肯定 也 在 内 存 中 缓存 着 。 

因为 文件 访问 呈现 空间 和 时 间 的 局 部 性 ， 所 以 对 目录 项 和 索引 节点 进行 缓存 非常 有 益 。 文 
件 访问 有 了 时间 上 的 局 部 性 ， 是 因为 程序 可 能 会 一 次 又 一 次 地 访问 相同 的 文件 。 因 此 ， 当 一 个 文件 
被 访问 时 ， 所 缓存 的 相关 目录 项 和 索引 节点 不 久 被 命中 的 概率 较 高 。 文 件 访问 具有 空间 的 局 部 性 
是 因为 程序 可 能 在 同一 个 目录 下 访问 多 个 文件 ， 因 此 一 个 文件 对 应 的 目录 项 缓存 后 极 有 可 能 被 命 
中 ， 因 为 相关 的 文件 可 能 在 下 次 又 被 使 用 。 


13.10 ”目录 项 操作 


dentry_operation 结构 体 指明 了 VFS 操作 目录 项 的 所 有 方法 。 
该 结构 定义 在 文件 <linux/dcache.h> 中 。 


struct dentry operations 1{ 
int (*d revalidate) {struct dentry *, struct nameidata *); 
int (*d hash) (struct dentry *, struct qstr *); 
int (*d compare) (struct dentry *, gtruct gstr *, Struct gstr *); 
int {(*d delete) (struct dentry *); 
Void {*d release)} (struct dentry *}; 
void (*d iput) (struct dentry *, struct inode *}); 
char *(*d dname) (struct dentry *, char *, int); 


} 
下 面 给 出 函数 的 具体 用 法 : 


* int dq revalidate(struct dentry *dentry ， 
struct nameidata*}; 


该 国 数 判断 目录 对 象 是 否 有 效 。VFS 准备 从 dcache 中 使 用 一 个 目录 项 时 ， 会 调用 该 函数 。 
大 部 分 文件 系统 将 该 方法 置 NULL， 因 为 它们 认为 dcache 中 的 目录 项 对 象 总 是 有 效 的 。 


* int 可 hasht(lstruct dentry *dentry, 


struct gstr *name) 


该 函数 为 目录 项 生成 散 列 值 ， 当 目录 项 需要 加 入 到 散 列表 中 时 ，VFS 调用 该 函数 。 


int dd compare(struct dentry *dentry, 
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struct qstr *namel., 
struct gstr *name2) 


VFS 调用 该 函数 来 比较 namel 和 name2 这 两 个 文件 名 。 多 数 文 件 系统 使 用 VFS 默认 的 操 
作 ， 仅 仅 作 字符 品 比 较 。 对 有 些 文件 系统 ， 比 如 FAT， 简 单 的 字符 串 比 较 不 能 满足 其 需要 。 因 为 
FAT 文件 系统 不 区 分 大 小 写 ， 所 以 需要 实现 一 种 不 区 分 大 小 写 的 字符 串 比 较 函 数 。 注 意 使 用 该 函 
数 时 需要 加 dcache lock 锁 。 


® int d deletelstruct dentry *dentry) 


当 目 录 项 对 象 的 d_count 计数 值 等 于 0 时 ，VFS 调用 该 函数 。 注 意 使 用 读 函 数 需 要 加 dcache_ 
lock 锁 和 目录 项 的 d lock。 


® void d release{struct dentry *dentry) 
当 目录 项 对 象 将 要 被 释放 时 ，VFS 调用 该 函数 ， 默 认 情况 下 ， 它 什么 也 不 做 。 


void d iputi{struct dentry *dentry, 
struct inode #*#inode) 


当 一 个 目录 项 对 象 丢 失 了 其 相关 的 索引 市 挟 时 (也 就 是 说 磁盘 案 引 而 乓 被 删除 了 )，VFS 调 
用 该 函数 。 上 默认 情况 下 VFS 会 调用 iput( 函数 释放 索引 市 点 。 如 果 文 件 系 统 重 载 了 该 函数 ， 那 么 
除了 执行 此 文件 系统 特殊 的 工作 外 ， 还 必须 调用 iputO 函数 。 


13.11 “文件 对 象 - 


VFS 的 最 后 一 个 主要 对 象 是 文件 对 象 。 文 件 对 象 表示 进程 已 打开 的 文件 。 如 果 我 们 站 在 用 
户 角 度 来 看 待 VFS， 文 件 对 象 会 首先 进入 我 们 的 视野 。 进 程 直接 处 理 的 是 文件 ， 而 不 是 超级 块 、 
索引 节点 或 目录 项 。 所 以 不 必 奇 怪 : 文件 对 象 包含 我 们 非 闸 熟悉 的 信息 (如 访问 模式 ， 当 前 偏 移 
等 )， 同 样 道理 ， 文 件 操作 和 我 们 非常 熟悉 的 系统 调用 read() 和 writeO 等 也 很 类 似 。 

文件 对 象 是 已 打开 的 文件 在 内 存 中 的 表示 。 该 对象 〈 不 是 物理 文件 ) 由 相应 的 open() 系统 
调用 创建 ， 由 close0 系统 调用 撤销 ， 所 有 这 些 文件 相关 的 调用 实际 上 都 是 文件 操作 表 中 定义 的 
方法 。 因 为 多 个 进程 可 以 同时 打开 和 操作 同一 个 文件 ， 所 以 同一 个 文件 也 可 能 存在 多 个 对 应 的 文 
件 对 象 。 文 件 对 象 仅仅 在 进程 观点 上 代表 已 打开 文件 ， 它 反 过 来 指向 目录 项 对 象 ( 反 过 来 指向 索 
引 节 点 )， 其 实 只 有 目录 项 对 象 才 表示 已 打开 的 实际 文件 。 虽 然 一 个 文件 对 应 的 文件 对 象 不 是 唯 
一 的 ， 但 对 应 的 索引 节点 和 目录 项 对 象 无 疑 是 唯一 的 。 : 

文件 对 象 由 file 结构 体 表示 ， 定 义 在 文件 <linux/fs.h> 中 ， 下 面 给 出 该 结构 体 和 各 项 的 描述 。 


struct file 1 


union { 
struct list head fu list; /* 文件 对 象 链表 */ 
struct rcu head fu rcuhead; +/* 释放 之 后 的 RCU 链表 */ 
} f u; 
struct path f path:; A/* 和 包含 目录 项 */ 
struct file operations *E£ op; /* 文件 操作 表 */ 
spinlock t f lock; /* 单个 文件 结构 锁 */ 


atomic t f count,; /* 文件 对 象 的 使 用 计数 */ 


}; 
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unsigned int £f flags; +* 当 打 开 文 件 时 所 指定 的 标志 * / 
mode 七 f mode; /* 文件 的 访问 模式 */ 
loff + £f_ pos; /* 文件 当前 的 位 移 量 【文件 指针 ) *V/ 
struct fown struct f_owner; /* 拥有 者 通过 信号 进行 异步 I/O 数据 的 传送 */ 
const struct cred *f_ cred; /1* 文件 的 信任 状 */ 
struct file ra state f ra; /* 预 读 状 态 */ 
U6 和 4 f version; /* 版 本 号 */ 
void *f_ security;  /* 安全 模块 */ 
void *private data; /* tty 设备 驱动 的 钧 子 */ 
struct list head f ep linksas; /* 事件 地 链表 */ 
spinlock 七 f ep lock; /* 事件 字 钢 */ 
struct address space *f _ mapping:; As 页 缓存 映射 */ 
unsigned long f mnt write state; /* 调试 状态 */ 


类 似 于 目录 项 对 象 ， 文 件 对 象 实际 上 没有 对 应 的 磁盘 数据 。 所 以 在 结构 体 中 没有 代表 其 对 象 
是 否 为 脏 、 是 否 需 要 写 回 磁盘 的 标志 。 文 件 对 象 通 过 fdentry 指针 指向 相关 的 目录 项 对 象 。 目 录 
项 会 指向 相关 的 索引 节点 ， 索 引 节 点 会 记录 文件 是 否 是 脏 的 。 


13.12 文件 操作 


和 VFS 的 其 他 对 象 一 样 ， 文 件 操 作 表 在 文件 对 象 中 也 非常 重要 。 跟 file 结构 体 相关 的 操作 
与 系统 调用 很 类 似 ， 这 些 操 作 是 标准 Unix 系统 调用 的 基础 。 
文件 对 象 的 操作 由 file_operations 结构 体 表示 ， 定 义 在 文件 <linux/fs.h> 中 ; 


struct file operations 1{ 


struct module *owner; 
loff t (*llseek}) ‘struct file *, loff t, int):; 
ssize t (*read) (8truct file *, Char user *,; gize 七 loff 七 *); 
ssize t (*write) (struct file *, const char user *, Size t, loff t *); 
sgize t {(*aio read) {struct kiocb *, const struct iovec *, 
unsigned long, loff t); 
ssize t (*aio write) (struct kiocb *, const struct iovec *, 
unsigned long, loff t); 
int (*readdir) (struct file 二 void *, filldir t}); 
unsgigned int (*poll) (gtruct file *, struct poll table struct *);} 
int (*ioctl) (struct inode *, struct file *, unsigned int, 
unsigned long); 
long (*unlocsked ioctl) ‘(struct file *, unsigned int, unsigned long); 
long (*compat ioct1) (struct file *, unsigned int, unsigned long}); 
int {*mmap) (struct file *, struct vm area struct *); 
int (*open) {struct inode *, struct file *); 
int {(*flush) {struct file *, fl1 owner 七 id); 
int (*release) (struct inode 二 atruct file *);} 
int i(*fayncec} (struct file *, struct dentry *, int datasync}; 
int {*aio fsync) (struct kiocb *, int datasync); 
int (*faeync) (int, struct file *, int); 
int (*lock) {struct file *, int, struct file lock *); 
ss3ize t (*sendpage) (struct file *, struct page *, 
int, Size t, loff t *, int}); 
unsigned long {(*get unmapped area} {struct file *, 
unsigned long, 
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ET 
unsigned long, 
unsigned long}); 
int (*check flags) {int}); 
int (*flock) (struet file *, int, struct file lock *); 
ssize 七 (*splice write)} (struct pipe inode info *, 
struct file *, 
loff 七 二 ， 
Size 七， 
ungsgigned int); 
ssize t (*splice read) {struct file *, 
loff 七 *, 
struct pipe inode info *, 
Sige t, 
unsigned int); 
int (*getlease) (struct file *, long, struct file lock **)}; 


}; 


有 具体 的 文件 系统 可 以 为 每 一 种 操作 做 专门 的 实现 ， 或 者 如 果 存 在 通用 操作 ， 也 可 以 使 用 通用 
操作 。 一 般 在 基于 Unix 的 文件 系统 上 ， 这 些 通用 操作 效果 都 不 错 。 并 不 要 求实 际 文件 系统 实现 
文件 操作 函数 表 中 的 所 有 方法 一 一 虽然 不 实现 最 基础 的 那些 操作 显然 是 很 不 明智 的 ， 对 不 感 兴趣 
的 操作 完全 可 以 简单 地 将 读 函 数 指针 置 为 NULL。 

下 面 给 出 操作 的 用 法 说 明 : 


® loff t lleeklstruct file *file., 
loff t offset ,int origin) 


该 函数 用 于 更 新 偏 移 量 指针 ， 由 系统 调用 lleek0 调用 它 。 


® BBize t read(lsetruct file *file, 
char *buf,size t count, 
loff t *offget) 


该 函数 从 给 定 文件 的 offset 偏 移 处 读 取 conut 字 节 的 数据 到 buf 中 , 同时 更 新 文件 指针 。 由 
系统 调用 read0 调用 它 。 


® Ssize 七 aio read{struct kiocb *iocb, 
char 村上， size t count, 
loff t+ offset) 


该 函数 从 iocb 描述 的 文件 里 ， 以 同步 方式 读 取 count 字 节 的 数据 到 buf 中。 由 系统 调用 aio_ 
Tead0 调用 息 。 


ss Ssize t writelstruct file *file, 
const ,char *buf,aize t count, 
loff t *offset) 


读 函 数 从 给 定 的 buf 中 取出 conut 字 节 的 数据 ， 写 入 给 定 文件 的 offset 偏 移 处 ， 同 时 更 新 文 
件 指 针 。 由 系统 调用 writeO 调用 它 。 
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® ssize t aio writelstruct kiocb *iocb, 
const ,char *buf, 
size t count, loff t offset) 


该 函数 以 同步 方式 从 给 定 的 buf 中 取出 conut 字 节 的 数据 ， 写 人 由 iocb 描述 的 文件 中 。 由 系 
统 调用 aio_write() 调用 它 。 


ss int readdirl(lstruct file *file ,voiqd *dirent ,filldir t filldir) 


该 函数 返回 目录 列表 中 的 下 一 个 目录 。 由 系统 调用 readdir() 调用 它 。 


s unsigned int polll(struct file *file, 
struct poll table struct *poll table) 


该 函数 睡眠 等 待 给 定 文件 活动 。 由 系统 调用 pollO 调用 它 。 


int ioctl {struct inode *inode, 
struct file *f]le, 
unsigned int cmd, 
unsigned long az) 


该 函数 用 来 给 设备 发 送 命 令 参 数 对 。 当 文件 是 一 个 被 打开 的 设备 市 点 时 ， 可 以 通过 它 进行 设 
置 操作 。 由 系统 调用 ioctl0 调用 它 。 调 用 者 必须 持 有 BKL。 


* int unlocked ioctl (struct file *file, 
unsigned int cmd, 
unsigned long arg) 


其 实现 与 joctl0 有 类 似 的 功能 ， 只 不 过 不 需要 调用 者 持 有 BKL。 如 果 用 户 空间 调用 ioctl0 
系统 调用 ，VFS 便 可 以 调用 unlocked_ioctl()( 几 是 ioctl0 出 现 的 场所 )。 因 此 文件 系统 只 需要 实 
现 其 中 的 一 个 ， 一 般 优先 实现 unlocked _iocti0。 


# int compat ioctl {struct file *file, 
unsaigned int cmd, 
unsigned long arg}) 


读 函 数 是 ioctl0 函数 的 可 移植 变种 ， 被 32 位 应 用 程序 用 在 64 位 系统 上 。 这 个 函数 被 设 
计 成 即使 在 64 位 的 体系 结构 上 对 32 位 也 是 安全 的 ， 它 可 以 进行 必要 的 字 大 小 转换 。 新 的 驱动 
程序 应 该 设计 自己 的 ioctl 命 令 以 便 所 有 的 驱动 程序 都 是 可 移植 的 ， 从 而 使 得 compat ioctlQ 和 
unlocked_iocti(0 指向 同一 个 函数 。 像 compat_ioctl( 和 unlocked_ioctli0 一 样 都 不 必 持 有 BKL。 


* int mmaplstruct file *file,struct vm area struct *vma) 


该 函数 将 给 定 的 文件 映射 到 指定 的 地 址 空间 上 。 由 系统 调用 mmap0 调用 它 。 


* int openlstruct inode *inode, 
struct file *file) 


该 函数 创建 一 个 新 的 文件 对 象 ， 并 将 它 和 相应 的 索引 节点 对 象 关联 起 来 。 由 系统 调用 open0 
调用 它 。 


® int flush{istruct fle *fle) 
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当 已 打开 文件 的 引用 计数 减少 时 ， 该 函数 被 VFS 调用 。 它 的 作用 根据 具体 文件 系统 而 定 。 


® int releasge (struct inode *inode, 
struct fle *file) 


当 文 件 的 最 后 一 个 引用 被 注销 时 比如 ， 当 最 后 一 个 共享 文件 描述 符 的 进程 调用 了 close0 
或 退出 时 )， 读 函数 会 被 VFS 调用 。 它 的 作用 根据 具体 文件 系统 而 定 。 
* int fesync(lstruct file *file, 


struct dentry *dentry, 
int datasync) 


将 给 定 文件 的 所 有 被 缓存 数据 写 回 磁盘 。 由 系统 调用 fsync0 调用 它 。 


s jint aio 于 SBSYmC TISLIUCt kiocb *iocb, 
int dataesyne) 


将 iocb 描述 的 文件 的 所 有 被 缓存 数据 写 回 到 磁盘 。 由 系统 调用 aio_fsync0 调用 它 。 
* int fasyncl(lint fd,estruct file *file ,int on) 

该 函数 用 于 打开 或 关闭 异步 1/O 的 通告 信号 。 

* int lock (struct file *file,int cmd,struct file lock *lock) 

该 函数 用 于 给 指定 文件 上 锁 。 


® ssize 七 readvlstruct file *file, 
conet struct iovec *vector, 
unsigned long count, 
loff 七 *offset) 


该 函数 从 给 定 文件 中 读 取 数据 ， 并 将 其 写 人 由 vector 描述 的 count 个 缓冲 中 去 ， 同 时 增加 文 
件 的 偏 称 量 。 由 系统 调用 readv0O 调用 它 。 


* ssize t writevistruct file *file, 
const struct iovec *vector, 
unsigned long count, 
loff t *offset) 


该 函数 将 由 vector 描述 的 count 个 缓冲 中 的 数据 写 人 到 由 file 指定 的 文件 中 去 ， 同 时 减 小 文 
件 的 偏 移 量 。 由 系统 调用 writev0 调用 它 。 


* ssize t 关 司 mLGHiLe TBtIEUCt file *file, 
loff 七 *offgset, 
size 七 size, 
read actor t actor., 
Void *target) 


该 函数 用 于 从 一 个 文件 拷贝 数据 到 另 一 个 文件 中 ， 它 执行 的 拷贝 操作 完全 在 内 核 中 完成 ， 避 
免 了 向 用 户 空 间 进行 不 必要 的 拷贝 。 由 系统 调用 sendfile() 调用 它 。 


章 Sgsize t Sendpage (Btruct file *file, 
struct page *page, 
int offset,size 七 size, 
loff t *pos, int more) 
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该 函数 用 来 从 一 个 文件 同 另 一 个 文件 发 送 数 据 。 


® unsigned long get unmapped arealstruct file *file, 
unsigned long addr, 
unsigned long len, 
unsigned long offset, 
unsigned long flags) 


该 函数 用 于 获取 未 使 用 的 地 址 空间 来 映射 给 定 的 文件 。 


* int check flags (int flags) 


当 给 出 SETFL 命令 时 ， 这 个 函数 用 来 检查 传递 给 fcnti0 系统 调用 的 flags 的 有 效 性 。 与 大 
多 数 VFS 操作 一 样 ， 文 件 系统 不 必 实 现 check_flags() 一 一 目前 ， 只 有 在 NFS 文件 系统 上 实现 了 。 
这 个 函数 能 使 文件 系统 限制 无 效 的 SETFL 标志 ， 不 进行 限制 的 话 ， 普 通 的 fcntlO 函数 能 使 标志 
生效 。 在 NFS 文件 系统 中 ， 不 允许 把 O_APPEND 和 O_DIRECT 相 结合 。 

es int flocklstruct file *filp, 


int cmd, 
struct file lock *f) 


这 个 图 数 用 来 实现 flock() 系统 调用 ， 该 调用 提供 忠告 铀 。 


如 此 之 多 的 loctls 

不 久之 前 ， 只 有 一 个 单独 的 ioctl 方法 。 如 今 ， 有 三 个 相关 的 方法 。unlocked_ioctlO 和 
ioctl 相同 ， 不 过 前 者 在 无 大 内 核 锁 (BKL) 情况 下 被 调用 。 因 此 函数 的 作者 必须 确保 适当 的 
同步 。 因 为 大 内 核 锁 是 粗 粒度 、 低 效 的 锁 ， 驱 动 程序 应 当 实现 unlocked ioctl( 而 不 是 ioctlO。 

compat ioctl0 也 在 无 大 内 核 锁 的 情况 下 被 调用 ， 但 是 它 的 目的 是 为 64 位 的 系统 提供 32 
位 ioct 的 兼容 方法 。 至 于 你 如 何 实现 它 取 决 于 现 有 的 ioctl 命令 。 早 期 的 驱动 程序 隐 含 有 确 
定 大 小 的 类 型 (如 long)， 应 该 实现 适用 于 32 位 应 用 的 compat _ioctl0 方法 。 这 通常 意味 着 把 
32 位 值 转换 为 64 位 内 核 中 合适 的 类 型 。 新 驱动 程序 重新 设计 ioctl 命令 ， 应 该 确保 所 有 的 参 
数 和 数据 都 有 明确 大 小 的 数据 类 型 ， 在 32 位 系统 上 运行 32 位 应 用 是 安全 的 ， 在 64 位 系统 上 
运行 32 位 应 用 也 是 安全 的 ， 在 64 位 系统 上 运行 64 位 应 用 更 是 安全 的 。 这 些 驱动 程序 可 以 让 
compat_ioctl() 函数 指针 和 unlocked_ioctlQ 函数 指针 指 疝 同一 函数 。 


13.13 ”和 文件 系统 相关 的 数据 结构 


除了 以 上 几 种 VFS 基础 对 象 外 ， 内 核 还 使 用 了 另外 一 些 标准 数据 结构 来 管理 文件 系统 的 其 
他 相关 数据 。 第 一 个 对 象 是 file_system_type， 用 来 描述 各 种 特定 文件 系统 类 型 ， 比 如 ext3、ext4 
或 UDF。 第 二 个 结构 体 是 vfsmount， 用 来 描述 一 个 安装 文件 系统 的 实例 。 

因为 Linux 支持 众多 不 同 的 文件 系统 ， 所 以 内 核 必须 由 一 个 特殊 的 结构 来 描述 每 种 文件 系统 
的 功能 和 行为 。file_system_type 结构 体 被 定义 在 <linux/fs.h> 中 ， 具 体 实现 如 下 : 

struct file system type 1 


const char 去 回忆 Im ; /1* 女 件 系统 的 名 字 */ 
int fs flags; /* 文件 系统 类 型 标志 */ 


he a 


ee 


ny 
i 


和 


厦 杨 丈 任 关 针 


} 


/* 下 面 的 国 数 用 来 从 磁盘 中 读 取 超 级 块 */ 


struct super block * («get sb) 
/* 下 面 的 函数 用 来 终止 访问 超级 块 */ 

voiqd (*kill sb) 
struct module WOWNer; 
struct file system type *next;} 


struct liet head fs supers,; 
/* 剩 下 的 几 个 字段 运行 时 使 锁 生 效 */ 

Struct lock class key 
struct lock claass key 
struct lock class key 
struct lock class key 
struct lock class key 
Btruct lock class kevy 


s_ lock key; 

Ss _ umount key; 

i lock key; 

i mtex key;} 

i mtex dir key; 
i alloc sem key; 


2 


(struct file system type *, int, 
char 二 ， Void *); 


(struct super block *); 


/* 文件 系统 模块 */ 
/* 链表 中 下 一 个 文件 系统 类 型 */ 
/* 超级 块 对 象 链表 */ 


get_sb() 函数 从 磁盘 上 读 取 起 级 块 ， 并 且 在 文件 系统 被 安 狼 时 ， 在 内 存 中 组 装 超 级 块 对 象 。 
剩余 的 函数 捅 述 文件 系统 的 属性 。 

每 种 文件 系统 ， 不 管 有 多 少 个 实例 安装 到 系统 中 ， 还 是 根本 就 没有 安装 到 系统 中 ， 都 只 有 一 
个 file system type 结构 。 

更 有 趣 的 事情 是 ， 当 文件 系统 被 实际 安装 时 ， 将 有 一 个 vfsmount 结构 体 在 安装 点 被 创建 。 
该 结构 体 用 来 代表 文件 系统 的 实例 一 一 换 名 话说， 代表 一 个 安装 后 。 

vfsmount 结构 被 定义 在 <linux/mount.h> 中 ， 下 面 是 具体 结构 : 


struct vfsmount { 


}; 


struct list head mt hash; /* 散 列 表 */ 
struct YVESmeunt *mnt parent;} /* 父 文件 系统 */ 
struct dentry *mnt mountpoint; /* 安装 点 的 目录 项 */ 


struct dentry 
atruct super block 
struct list head 


*mt root; 
*mnt_ sb; 


struct list head mt child,; 
int mnt flags; 
char *mnt devname; 
struct list head mnt liest; 


atruct list head 
struct list head 
struct list head 
struct list head 
atruct vfsmount 
struct mt namespace 


mnt share; 


mt slave; 


mt mounte; 


mt expires 
mt slave list; 


*mmt master; 
*mmt namespace; 


/* 该 文件 系统 的 根 目录 项 */ 
/* 该 文件 系统 的 超级 块 */ 
/* 子 文件 系统 链表 */ 

/* 子 文件 系统 链表 */ 

/* 安装 标志 */ 

/* 设备 文件 名 */ 

/* 描述 符 链表 */ 

/* 在 到 期 链表 中 的 入 口 */ 
/* 在 共享 安装 链表 中 的 人 口 */ 
/* 从 安装 链表 */ 

/* 从 安装 链表 中 的 入口 */ 
/* 从 安装 链表 的 主人 */ 
/* 相关 的 命名 空间 */ 


int mt _id; /* 安装 标识 符 */ 

int mnt group id; /* 组 标识 符 */ 

atomic 七 mt count; /* 使 用 计数 */ 

int mt expiry mark; /* 如 果 标 记 为 到 期 ， 则 值 为 真 */ 
int mnt pinned; /* “ 钉 住 ” 进 程 计 数 */ 

int mt ghosts; / “镜像 ”引用 计数 */ 
atomic t _ mnt writers; /* 写 者 引用 计数 */ 


理 清 文件 系统 和 所 有 其 他 安装 点 间 的 关系 ， 是 维护 所 有 安装 点 链表 中 最 复杂 的 工作 。 所 以 
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vfsmount 结构 体 中 维护 的 各 种 链表 就 是 为 了 能 够 跟踪 这 些 关联 信息 。 
vfsmount 结构 还 保存 了 在 安装 时 指定 的 标志 信息 ， 读 信息 存储 在 mnt_flages 域 中 。 表 13-1 
列 出 了 标准 的 安装 标志 。 


表 13-1 标准 安装 标志 列表 


标 志 描 述 
MNT_NOSUID 禁止 该 文件 系统 的 可 执行 文件 设置 setuid 和 setgid 标志 
MNT MODEV 禁止 访问 该 文件 系统 上 的 设备 文件 
MNT NOEXEC 禁止 执行 该 文件 系统 上 的 可 执行 文件 


安装 那些 管理 员 不 充分 信任 的 移动 设备 时 ， 这 些 标志 很 有 用 处 。 它 们 和 其 他 一 些 很 少 用 的 标 
志 一 起 定义 在 <linux/mount.h> 中 。 


13.14 ”和 和 进程 相关 的 数据 结构 


系统 中 的 每 一 个 进程 都 有 自己 的 一 组 打开 的 文件 ， 像 根 文 件 系统 、 当 前 工作 目录 、 安 装点 
等 。 有 三 个 数据 结构 将 VFS 层 和 系统 的 进程 紧密 联系 在 一 起 ， 它 们 分 别 是 : file_struct 、fs_struct 
和 namespace 结构 体 。 

file_struct 结构 体 定义 在 文件 <linux/fdtable.h> 中 。 读 结构 体 由 进程 描述 符 中 的 files 目录 项 
指向 。 所 有 与 单个 进程 (per-process) 相关 的 信息 〈 如 打开 的 文件 及 文件 描述 符 ) 都 包含 在 其 
中 ， 其 结构 和 描述 如 下 : 


atruct files struct | 


atomic t count ; /* 结构 的 使 用 计数 */ 
struct fdtable *fdt ; /* 指向 其 他 fa 表 的 指针 */ 
struct fdtable fdtab; As 基 fq 表 */ 

spinlock t file_ lock; /* 单个 文件 的 锁 */ 

int next fd; /* 缓存 下 一 个 可 用 的 fa */ 


struct embedded fd _ set close on exec init; /* exec{) 时 关闭 的 文件 描述 符 链表 */ 
struct embedded fd set open fds init /* 打开 的 文件 描述 符 链表 */ 
struct file *fd array [NR OPEN DEFAULT] ; /* 缺 省 的 文件 对 象 数组 */ 
}; 
fd array 数组 指针 指向 已 打开 的 文件 对 象 。 因 为 NR_OPEN_DEFAULT 等 于 BITS PER_ 
LONG, 在 64 位 机 器 体系 结构 中 这 个 宏 的 值 为 64 ， 所 以 读数 组 可 以 容纳 64 个 文件 对 象 。 如 果 一 
个 进程 所 打开 的 文件 对 象 超过 64 个 , 内 核 将 分 配 一 个 新 数组 ， 并 且 将 fdt 指针 指向 它 。 所 以 对 适 
当 数 量 的 文件 对 象 的 访问 会 执行 得 很 快 ， 因 为 它 是 对 静态 数组 进行 的 操作 ; 如 果 一 个 进程 打开 的 
文件 数量 过 多 ， 那 么 内 核 就 需要 建立 新 数组 。 所 以 如 果 系 统 中 有 大 量 的 进程 都 要 打开 超过 64 个 
文件 ， 为 了 优化 性 能 ， 管 理 员 可 以 适当 增 大 NR_OPEN_DEFAULT 的 预定 义 值 。 
和 进程 相关 的 第 二 个 结构 体 是 全 struct。 该 结构 由 进程 描述 符 的 久 域 指向 。 它 包含 文件 系统 
和 进程 相关 的 信息 ， 定 义 在 文件 <linux/fs_struct.h> 中 ， 下 面 是 它 的 具体 结构 体 和 各 项 描述 : 
struct fs struct 1 
int USErS; /* 用户 数目 */ 
rwlock t lock; /* 保护 该 结构 体 的 镇 */ 
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int umaek; /* 掩 码 */ 

int in exec; /A* 当前 正在 执行 的 文件 */ 
struct path root; A/* 要 目录 路 径 */ 
struct path pwad; /* 当前 工作 目录 的 路 径 */ 


}:; 


该 结构 包含 了 当前 进程 的 当前 工作 目录 (pwd) 和 根 目录 。 

第 三 个 也 是 最 后 一 个 相关 结构 体 是 namespace 结构 体 。 它 定义 在 文件 <linux/mmt_ 
namespace.h> 中 ， 由 进程 描述 符 中 的 mmt_namespace 域 指向 。2.4 版 内 核 以 后 ， 单 进程 命名 空间 
被 加 入 到 内 核 中 ， 它 使 得 每 一 个 进程 在 系统 中 都 看 到 唯一 的 安装 文件 系统 一 一 不 仅 是 唯一 的 根 目 
录 ， 而 且 是 唯一 的 文件 系统 层次 结构 。 下 面 是 其 具体 结构 和 描述 : 


struct mmt namespace | 





atomic t count; /* 结构 的 使 用 计数 */ 
struct vfsmount *root; /* 根 目录 的 安装 点 对 象 */ 
struct list head list; J/* 安装 点 链表 */ 
wait queue head t Poll; j/* 辊 询 的 等 待 队 列 */ 
int event; /* 事件 计数 */ 

] 


list 域 是 连接 已 安装 文件 系统 的 双向 链表 ， 它 包含 的 元 素 组 成 了 全 体 命名 空间 。 

上 述 这 些 数据 结构 都 是 通过 进程 描述 符 连 接 起 来 的 。 对 多 数 进 程 来 说 ， 它 们 的 描述 符 都 指向 
唯一 的 files_struct 和 伪 _struct 结构 体 。 但 是 ， 对 于 那些 使 用 克隆 标志 CLONE FILES 或 CLONE 
FS 创建 的 进程 ， 会 共享 这 两 个 结构 体 。 所 以 多 个 进程 描述 符 可 能 指向 同一 个 files_stmect 或 个 
struct 结构 体 。 每 个 结构 体 都 维护 一 个 count 域 作 为 引用 计数 ， 它 防止 在 进程 正 使 用 该 结构 时 ， 
该 结构 被 撤销 。 

namespace 结构 体 的 使 用 方法 却 和 前 两 种 结构 体 完全 不 同 ， 默 认 情 况 下 ， 所 有 的 进程 共享 同 
样 的 命名 空间 (也 就 是 ， 它 们 都 从 相同 的 挂 载 表 中 看 到 同一 个 文件 系统 层次 结构 )。 只 有 在 进行 
clone() 操作 时 使 用 CLONE _NEWS 标志 ， 才 会 给 进程 一 个 唯一 的 命名 空间 结构 体 的 拷贝 。 因 为 
大 多 数 进 程 不 提供 这 个 标志 ， 所 有 进程 都 继承 其 父 进 程 的 命名 空间 。 因 此 ， 在 大 多 数 系统 上 只 有 
一 个 命名 空间 ， 不 过 ，CLONE NEWS 标志 可 以 使 这 一 功能 失效 。 


13.15 小结 


Linux 支持 了 相当 多 种 类 的 文件 系统 。 从 本 地 文件 系统 (如 ext3 和 ext4) 到 网 络 文件 系统 
(如 NFS 和 Coda)，Linux 在 标准 内 核 中 已 支持 的 文件 系统 超过 60 种 。VFS 层 提供 给 这 些 不 同文 
件 系 统一 个 统一 的 实现 框架 ， 而 且 也 提供 了 能 和 标准 系统 调用 交互 工作 的 统一 接口 。 由 于 VFS 
层 的 存在 ， 使 得 在 Linux 上 实现 新 文件 系统 的 工作 变 得 简单 起 来 ， 它 可 以 轻松 地 使 这 些 文件 系统 
通过 标准 Unix 系统 调用 而 协同 工作 。 
本 章 描 述 了 VFS 的 目的 ， 讨 论 了 各 种 数据 结构 ， 包 括 最 重要 的 索引 节点 、 目 录 项 以 及 超 
级 块 对 象 。 第 14 章 将 讨论 数据 如 何 从 物理 上 存放 在 文件 系统 中 。 


日 线程 通常 在 创建 时 使 用 CLONE_FILES 和 CLONE_FS 标志 ， 所 以 多 个 线程 共享 一 个 fle struct 结构 体 和 外 _ 
struct 结构 体 。 但 另 一 方面 ， 普 通 进程 没有 指定 这 些 标志 ， 所 以 它们 有 自己 的 文件 系统 信息 和 打开 文件 表 。 


第 44 章 
块 IO 层 


系统 中 能 够 随机 〈 不 需要 按 顺 序 ) 访问 固定 大 小 数据 片 ‘chunks) 的 硬件 设备 称 作 块 设备 ， 
这 些 固定 大 小 的 数据 片 就 称 作 块 。 最 常见 的 块 设 备 是 硬盘 ， 除 此 以 外 ， 还 有 软盘 驱动 器 、 蓝 光 光 
驱 和 闪存 等 许多 其 他 块 设备 。 注 意 ， 它 们 都 是 以 安装 文件 系统 的 方式 使 用 的 一 一 这 也 是 块 设备 一 
般 的 访问 方式 。 

另 一 种 基本 的 设备 类 型 是 字符 设备 。 字 符 设备 按照 字符 流 的 方式 被 有 序 访问 ， 像 串口 和 键 
盘 就 属于 字符 设备 。 如 果 一 个 硬件 设备 是 以 字符 流 的 方式 被 访问 的 话 ， 那 就 应 读 将 它 归 于 字符 设 
备 ; 有 反 过 来 ， 如 果 一 个 设备 是 随机 (无 序 的 ) 访问 的 ， 那 么 它 就 属于 块 设备 。 

对 于 这 两 种 类 型 的 设备 ， 它 们 的 区 别 在 于 是 否 可 以 随机 访问 数据 一 一 换 旬 话 说 ， 就 是 能 否 
在 访问 设备 时 随意 地 从 一 个 位 置 跳 转 到 另 一 个 位 置 。 举 个 例子 ， 键 盘 这 种 设备 提供 的 就 是 一 个 数 
据 流 ， 当 你 输入 “wolf” 这 个 字符 串 时 ， 键 盘 驱 动 程序 会 按照 和 输入 完全 相同 的 顺序 返回 这 个 由 
四 个 字符 组 成 的 数据 流 。 如 果 让 键盘 驱动 程序 打 乱 顺序 来 读 字 符 串 ， 或 读 取 其 他 字符 ， 都 是 没有 
意义 的 。 所 以 键盘 就 是 一 种 典型 的 字符 设备 ， 它 提供 的 就 是 用 户 从 键盘 输入 的 字符 流 。 对 键盘 进 
行 读 操作 会 得 到 一 个 字符 流 ， 首 先是 “w”， 然 后 是 “o”， 再 是 “1”， 最 后 是 “x”。 当 没 人 需 键 盘 
时 ， 字 符 流 就 是 空 的 。 硬 盘 设 备 的 情况 就 不 大 一 样 了 。 硬 盘 设 备 的 驱动 可 能 要 求 读 取 磁 盘 上 任意 
块 的 内 容 ， 然 后 又 转 去 读 取 别 的 块 的 内 容 ， 而 被 读 取 的 块 在 磁盘 上 位 置 不 一 定 要 连续 。 所 以 说 硬 
盘 的 数据 可 以 被 随机 访问 ， 而 不 是 以 流 的 方式 被 访问 ， 因 此 它 是 一 个 块 设备 。 

内 核 管理 块 设备 要 比 管理 字符 设备 细致 得 多 ， 需 要 考虑 的 问题 和 完成 的 工作 相对 于 字符 设 
备 来 说 要 复杂 许多 。 这 是 因为 字符 设备 仅仅 需要 控制 一 个 位 置 一 一 当前 位 置 ， 而 块 设备 访问 的 位 
置 必须 能 够 在 介质 的 不 同 区 间 前 后 移动 。 所 以 事实 上 内 核 不 必 提 供 一 个 专门 的 子 系统 来 管理 字符 
设备 ， 但 是 对 块 设备 的 管理 却 必须 要 有 一 个 专门 的 提供 服务 的 子 系统 。 不 仅仅 是 因为 块 设 备 的 复 
杂 性 远 远 高 于 字符 设备 ， 更 重要 的 原因 是 块 设备 对 执行 性 能 的 要 求 很 高 ; 对 硬盘 每 多 一 份 利用 都 
会 对 整个 系统 的 性 能 带 来 提升 ， 其 效果 要 远 远 比 键盘 吞吐 速度 成 倍 的 提高 大 得 多 。 另 外 ， 我 们 将 
会 看 到 ， 块 设备 的 复杂 性 会 为 这 种 优化 留 下 很 大 的 施展 空间 。 这 一 章 的 主题 就 是 讨论 内 核 如 何 对 
块 设备 和 块 设备 的 请 求 进行 管理 。 读 部 分 在 内 核 中 称 作 块 IO 层 。 有 趣 的 是 ， 改 写 块 UO 层 正 是 
2.5 开发 版 内 核 的 主要 目标 。 本 章 涵 盖 了 2.6 版 内 核 中 所 有 新 的 块 IO 层 ，。 


14.1 剖析 一 个 块 设备 


块 设备 中 最 小 的 可 寻 址 单元 是 遍 区 。 遍 区 大 小 一 般 是 2 的 整数 倍 ， 而 最 常见 的 是 512 字 刷 。 
局 区 的 大 小 是 设备 的 物理 属性 ， 扇 区 是 所 有 块 设 备 的 基本 单元 一 一 块 设备 无 法 对 比 它 还 小 的 单元 
进行 寻 址 和 操作 ， 尽 管 许多 块 设 备 能 够 一 次 对 多 个 局 区 进行 操作 。 虽 然 大 多 数 块 设备 的 局 区 大 小 
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都 是 512 字 节 ， 不 过 其 他 大 小 的 扇 区 也 很 常见 。 比 如 ， 很 多 CD-ROM 盘 的 遍 区 都 是 2KB 大 小 。 

因为 各 种 软件 的 用 途 不 同 ， 所 以 它们 都 会 用 到 自己 的 最 小 逻辑 可 寻 址 单元 一 一 块 。 块 是 文 
件 系 统 的 一 种 抽象 一 一 只 能 基于 块 来 访问 文件 系统 。 虽 然 物理 磁盘 寻 址 是 按照 局 区 级 进行 的 ， 
但 是 内 核 执行 的 所 有 磁盘 操作 都 是 按照 块 进行 的 。 由 于 局 区 是 设备 的 最 小 可 寻 址 单元 ， 所 以 块 
不 能 比 局 区 还 小 ， 只 能 数 倍 于 必 区 大 小 。 另 外 ， 内 核对 有 局 区 的 硬件 设备 ) 还 要 求 块 大 小 是 
2 的 整数 倍 ， 而 且 不 能 超过 一 个 页 的 长 度 (请 看 第 12 章 和 第 19 章 ) 号。 所 以 ， 对 块 大 小 的 最 终 
要 求 是 ， 必 须 是 局 区 大 小 的 2 的 整数 倍 ， 并 且 要 小 于 页 面 大 小 。 所 以 通 贡 块 大 小 是 512 字 市 、1KB 
或 4KB。 

遍 区 和 块 还 有 一 些 不 同 的 叫 法 ， 为 了 不 引起 混 靖 ， 我 们 在 这 里 向 要 介绍 一 下 它们 的 其 他 名 
称 。 扁 区 一 一 设备 的 最 小 寻 址 单元 ， 有 时 会 称 作 “ 硬 扁 区 ”或 “设备 块 ”; 同样 的 ， 块 一 一 文件 
系统 的 最 小 寻 址 单元 ， 有 时 会 称 作 “ 文 件 块 ”或 “LO 块 "。 在 这 一 章 里 ， 会 一 直 使 用 “局 区 ”和 
“ 块 ” 这 两 个 术语 ， 但 你 还 是 应 该 记 住 它们 的 这 些 别 和 名。 图 14-1 是 局 区 和 缓冲 区 之 间 的 关系 图 。 

至 少 相 对 于 硬盘 而 言 ， 另 外 一 些 术语 更 通用 一 一 如 簇 、 柱 面 以 及 磁头 。 这 些 表示 是 针对 某 些 
特定 的 块 设 备 的 ， 大 多 数 情 况 下 ， 对 用 户 空间 的 软件 是 不 可 见 的 。 遍 区 这 一 术语 之 所 以 对 内 核 重 
要 ， 是 因为 所 有 设备 的 IO 必须 以 局 区 为 单位 进行 操作 。 以 此 类 推 ， 内 核 所 使 用 的 “ 块 ” 这 一 高 
级 概念 就 是 建立 在 届 区 之 上 的 。 


渤 肝 ) 


从 肩 区 映射 到 块 
图 14-1 ”局 区 和 缓冲 区 之 间 的 关系 


14.2 ”缓冲 区 和 缓冲 区 头 


当 一 个 块 被 调 人 内 存 时 〈 也 就 是 说 ， 在 读 人 后 或 等 待 写 出 时 )， 它 要 存储 在 一 个 缓冲 区 中 。 
每 个 缓冲 区 与 一 个 块 对 应 ， 它 相当 于 是 磁盘 块 在 内 存 中 的 表示 。 前 面 提 到 过 ， 块 包含 一 个 或 多 个 
遍 区 ， 但 大 小 不 能 超过 一 个 页 面 ， 所 以 一 个 页 可 以 容纳 一 个 或 多 个 内 存 中 的 块 。 由 于 内 核 在 处 理 
数据 时 需要 一 些 相关 的 控制 信息 〈 比 如 块 属 于 哪 一 个 块 设备 ， 块 对 应 于 哪个 缓冲 区 等 )， 所 以 每 
一 个 缓冲 区 都 有 一 个 对 应 的 描述 符 。 该 描述 符 用 buffer_head 结构 体 表 示 ， 称 作 缓冲 区 头 ， 在 文 
件 <linux/buffer head.h> 中 定义 ， 它 包含 了 内 核 操作 缓冲 区 所 需要 的 全 部 信息 。 


怕 ”这 个 认为 的 限制 可 能 会 遗留 到 以 后 ， 但 是 强制 块 的 大 小 等 于 或 小 于 页 大 小 无 疑 简化 了 内 核 。 
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下 面 给 出 缓冲 区 头 结构 体 和 其 中 各 个 域 的 说 明 : 


struct buffer head { 


unsigned long b state; 1/* 组 神 区 状态 标志 */ 
struct buffer head *b this page; /* 页 面 中 的 缓冲 区 */ 
struct Page *b page; /* 存储 缓冲 区 的 页 面 */ 
sector 七 b blocknr,; /* 起 始 块 号 */ 
size 七 b sisze,; /* 上 映像 的 大 小 */ 
char *b data; /* 页 面 内 的 数据 指针 */ 
struct block device *b bdev; +* 相关 联 的 块 设备 */ 
bh end io t *b end io; /* I/QO 完成 方法 */ 
void *b private; ja io 完成 方法 */ 
struct list head b assoc buffers; /* 相关 的 映射 链表 */ 
struct address space *b assoc map; /* 相关 的 地 址 空间 */ 
atomic t b count:; /* 缓冲 区 使 用 计数 */ 


}; 


b_state 域 表 示 缓 冲 区 的 状态 ， 可 以 是 表 14-1 中 一 种 标志 或 多 种 标志 的 组 合 。 合 法 的 标志 存 
放 在 bh state bits 枚 举 中 ， 读 枚 举 在 <linux/buffer head.h> 中 定义 。 


表 14-1 bh_state 标志 


状态 标志 | 意 芯 

BH Uptodate | 该 组 溃 区 包含 可 用 数据 

BH_Dirty 该 缓冲 区 是 脏 的 《缓存 中 的 内 容 比 磁盘 中 的 块 内 容 新 ， 所 以 缕 神 区 内 容 必须 被 写 回 磁盘 ) 
BH Lock | 该 绥 冲 区 正在 被 /O 操作 使 用 ， 被 锁定 以 防 被 并 发 访问 

BH_Req 该 缓冲 区 有 LO 请 求 操作 

BH_Mapped 该 缓冲 区 是 酉 射 感 拭 块 的 可 用 缓冲 区 

BH New 缓冲 区 是 通过 get_block0 刚刚 映射 的 ， 尚 且 不 能 访问 

BH Async Read 该 缓冲 区 正 通 过 end_buffer async read0 被 异步 IO 读 操 作 使 用 

BH Async write 该 缓冲 区 正 通过 end buffer async write() 被 异步 IO 写 操作 使 用 

BH_Delay ”| 读 缀 冲 区 尚未 和 磁盘 块 关联 | 

BH_Boundary 该 缓冲 区 处 于 连续 块 区 的 边界 一 “下 一 个 块 不 再 连续 

BH Write EIO 该 缓冲 区 在 写 的 时 候 过 到 LO 错 误 
BH _Ordered 顺序 写 

BH_Eopnotsupp | 该 绥 冲 区 发 生 “ 不 被 支持 ”错误 

BH_Unwritten : 该 缓冲 区 在 硬盘 上 的 空间 已 被 申请 但 是 设 有 实际 的 数据 写 出 

BH -Quiet ”此 缓冲 区 禁止 错误 


bh_state_bits 列表 还 包含 了 一 个 特殊 标志 一 BH _ PrivateStart， 该 标志 不 是 可 用 状态 标志 ， 使 
用 它 是 为 了 指明 可 被 其 他 代码 使 用 的 起 始 位 。 块 IO 层 不 会 使 用 BH_PrivateStart 或 更 高 的 位 。 那 么 
某 个 驱动 程序 希望 通过 b_state 域 存储 信息 时 就 可 以 安全 地 使 用 这 些 位 。 驱 动 程序 可 以 在 这 些 位 中 
定义 自己 的 状态 标志 ， 只 要 保证 自 定义 的 状态 标志 不 与 块 VO 层 的 专用 位 发 生 冲 突 就 可 以 了 。 
b_count 域 表示 缓 冲 区 的 使 用 记 数 ， 可 通过 两 个 定义 在 文件 <linux/buffer_head.h> 中 的 内 联 
函数 对 此 域 进行 增 减 。 
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static inline void get bh{lstruct buffer head *bh) 
{ 

atomic inc{&bh->b count)}); 
} 


static inline void put bh{(struct buffer head *bh) 


{ 


atomic dec(sbh->b count); 


} 


在 操作 组 名 区 头 之 前 ， 应 该 先 使 用 get_bh0O 国 数 增加 缓冲 区 头 的 引用 计数 ， 确 保 该 缓冲 区 头 
不 会 再 被 分 配 出 去 ; 当 完 成 对 缓 仲 区 头 的 操作 之 后 ， 还 必须 使 用 put_bh() 函数 减少 引用 计数 。 

与 组 名 区 对 应 的 磁盘 物理 块 由 b_blocknr-th 域 索 引 ， 该 值 是 b_ bdey 域 指 明 的 块 设备 中 的 逻 
辑 块 号 。 

与 缕 冲 区 对 应 的 内 存 物 理 页 由 b page 域 表示 ， 男 外 ，b_data 域 直接 指向 相应 的 块 ( 它 位 于 
b_page 域 所 指明 的 页 面 中 的 某 个 位 置 上 )， 块 的 大 小 由 b_size 域 表示 ， 所 以 块 在 内 存 中 的 起 始 位 
置 在 b_data 处 ， 结 束 位 置 在 (b_data + b size) 处 。 

缓冲 区 头 的 目的 在 于 描述 磁盘 块 和 物理 内 存 缓 钟 区 〈 在 特定 页 面 上 的 字 节 序列 ) 之 间 的 映射 
关系 。 这 个 结构 体 在 内 核 中 只 扮 锭 一 个 摘 述 符 的 和 角色， 说 明 从 缓冲 区 到 块 的 映射 关系 。 

在 2.6 内 核 以 前 ， 缓 冲 区 头 的 作用 比 现在 还 要 重要 。 因 为 缓 促 区 头 作为 肉 核 中 的 LO 操作 单 
元 ， 不 仅仅 描述 了 从 磁盘 块 到 物理 内 存 的 映射 ， 而 且 还 是 所 有 块 IO 操作 的 容器 。 可 是 ， 将 缓冲 
区 头 作 为 IO 操作 单元 带 来 了 两 个 刺 病 。 首 先 ， 缓 冲 区 头 是 一 个 很 大 且 不 易 控 制 的 数据 结构 体 
(现在 是 缩减 过 的 了 )， 而 且 缓 冲 区 头 对 数据 的 操作 既 不 方便 也 不 清晰 。 对 内 核 来 说 ， 它 更 倾向 于 
操作 页 面 结 构 ， 因 为 页 面 操作 起 来 更 为 简便 ， 同 时 效率 也 高 。 使 用 一 个 巨大 的 缓 冲 区 头 表 示 每 一 
个 独立 的 缓冲 区 《可 能 比 页 面 小 ) 效率 低下 ， 所 以 在 2.6 版 本 中 ， 许 多 LO 操作 都 是 通过 内 核 直 
接 对 页 面 或 地 址 空间 进行 操作 来 完成 ， 不 再 使 用 缓冲 区 头 了 。 这 其 中 所 做 的 一 些 工 作 会 在 第 16 
章 中 进行 讨论 ， 具 体 情况 请 参考 address_space 结构 和 pdflush 等 守护 进程 (daemon) 部 分 。 

缓冲 区 头 带 来 的 第 二 个 整 端 是 : 它 仅 能 描述 单个 缓冲 区 ， 当 作为 所 有 LO 的 容器 使 用 时 ， 组 
证 区 头 会 促使 内 核 把 对 大 块 数据 的 IO 操作 (比如 写 操作 ) 分 解 为 对 多 个 buffer head 结构 体 进 
行 操作 。 这 样 做 必然 会 造成 不 必要 的 负担 和 空间 浪费 。 所 以 2.5 开发 版 内 核 的 主要 目标 就 是 为 块 
LO 操作 引信 一 种 新 型 、 灵 福 并 且 轻 量 级 的 容器 ， 也 就 是 14.3 节 要 介绍 的 bio 结构 体 。 


14.3 ”bio 结构 体 

目前 内 核 中 块 LO 操作 的 基本 容器 由 bio 结构 体 表 示 ， 它 定义 在 文件 <linux/bio.h> 中 。 该 结 
构 体 代表 了 正在 现场 的 (活动 的 ) 以 片断 (segment) 链表 形式 组 织 的 块 WO 操作 。 一 个 片段 是 
一 小 块 连续 的 内 存 缓冲 区 。 这 样 的 话 ， 就 不 需要 保证 单个 缓冲 区 一 定 要 连续 。 所 以 通过 用 片段 来 
描述 缓冲 区 ， 即 使 一 个 缓冲 区 分 散在 内 存 的 多 个 位 置 上 ，Pbio 结构 体 也 能 对 内 核 保证 VO 操作 的 
执行 。 像 这 样 的 向 量 IO 就 是 所 谓 的 聚 散 IO。 

bio 结构 体 定义 于 <linux/bio.h> 中 ， 下 面 给 出 bio 结构 体 和 各 个 域 的 描述 。 
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struct bic | 
Sector t 
struct bio 


struct block device 


unsigned long 
unsigned long 
unsigned short 
unsigned short 
unsigned short 
unsigned int 
ungigned int 
unsigned int 
unsigned int 
unsigned int 
atomic 七 
struct bio vec 
bio end io 七 
VOl1Q 


bio destructor t 


struct bio vec 


}; 


bi Sector; 

*bi next.; 

*bi bdev,; 

bi flags; 

bi rw; 

bi went; 

bi idx; 

bi phys segments; 
bi size; 

bi seg front size; 
bi seg back size; 
bi max vecs; 

bi comp cpu; 

bi ent; 
*bi io vec; 

*bi end io; 

*bi private,; 

*bi destructor; 

bi inline vecs[0]; 


事 14 重 


/* 磁盘 上 相关 的 扇 区 */ 

/* 请 求 链表 */ 

/* 相关 的 块 设备 */ 

/* 状态 和 命令 标志 */ 

/* 读 还 是 写 */ 

/* bio vecs 偏 移 的 个 数 */ 
/* bio io vect 的 当前 索引 */ 
/* 上 结合 后 的 片断 数目 */ 

/* TIAD 计 数 */ 

+* 第 一 个 可 人 台 并 的 段 大 小 */ 
1/* 最 后 一 个 可 合并 的 段 大 小 */ 
/* bio vecs 数目 上 限 */ 

/* 结束 CPU*/ 

/+ 使 用 计数 */ 

/= bio vecs 链表 */ 

/* I/O 完成 方法 */ 

/* 拥有 者 的 私有 方法 */ 

/+ 撤销 方法 */ 

/* 内 嵌 bio 向 量 */ 


使 用 bio 结构 体 的 目的 主要 是 代表 正在 现场 执行 的 IO 操作 ， 所 以 该 结构 体 中 的 主要 域 都 是 
用 来 管理 相关 信息 的 ， 其 中 最 重要 的 几 个 域 是 bi io vecs、bi vcnt 和 bi idx。 图 14-2 显示 了 bio 


结构 体 及 其 他 结构 体 之 间 的 关系 。 


bi_io_vec ‘ bi_idx 





图 14-2 bio 结构 体 、 


14.3.1 IO 向 量 


一 和 


bio_vec 结构 体 和 page 结构 体 之 间 的 关系 


bi_io_vec 域 指向 一 个 bio_vec 结构 体 数组 ， 该 结构 体 链表 包含 了 一 个 特定 IO 操作 所 需要 使 
用 到 的 所 有 片段 。 每 个 bio_vec 结构 都 是 一 个 形式 为 <page, offset, len> 的 向 量 ， 它 描述 的 是 一 个 
特定 的 片段 : 片段 所 在 的 物理 页 、 块 在 物理 页 中 的 偏 移 位 置 、 从 给 定 偏 移 量 开始 的 块 长 度 。 整 个 
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bio_io_vec 结构 体 数 组 表示 了 一 个 完整 的 缓冲 区 。bio_vec 结构 定义 在 <linux/bio.h> 文件 中 : 


struct bio vec { 
/* 指向 这 个 缓冲 区 所 驻 留 的 物理 页 */ 


struct page *bv page:} 


/* 这 个 缓冲 区 以 字 节 为 单位 的 大 小 */ 


unsigned int bv len; 


/* 缓冲 区 所 驻 留 的 页 中 以 字 市 为 单位 的 偏 称 量 */ 
unsigned int bv offeset; 

所 

在 每 个 给 定 的 块 IO 操作 中 ，bi_vent 域 用 来 描述 bi io_vec 所 指向 的 vio_vec 数组 中 的 向 量 
数目 。 当 块 IO 操作 执行 完毕 后 ，bi_idx 域 指 同 数组 的 当前 索引 。 

总 而 言 之 ， 每 一 个 块 VO 请 求 都 通过 一 个 bio 结构 体 表 示 。 每 个 请 求 包含 一 个 或 多 个 块 ， 这 
些 块 存储 在 bio_vec 结构 体 数组 中 。 这 些 结构 体 描述 了 每 个 片段 在 物理 页 中 的 实际 位 置 ， 并 且 像 
问 量 一 样 被 组 织 在 一 起 。L'O 操作 的 第 一 个 片段 由 b_io_vec 结构 体 所 指向 ， 其 他 的 片段 在 其 后 依 
次 放置 ， 共 有 bi vcnt 个 片段。 当 块 IO 层 开 始 执 行 请 求 、 需 要 使 用 各 个 片段 时 ，bi_idx 域 会 不 
断 更 新 ， 从 而 总 指 问 当 前 片段 。 

bi_idx 域 指向 数组 中 的 当前 bio_vec 片段 ， 块 VO 层 通 过 它 可 以 跟踪 块 VO 操作 的 完成 进度 。 
但 该 域 更 重要 的 作用 在 于 分 割 bio 结构 体 。 像 元 余 廉 价 磁盘 阵列 “RAID， 出 于 提高 性 能 和 可 靠 性 
的 目的 ， 将 单个 磁盘 的 卷 扩 展 到 多 个 磁盘 上 )〉 这 样 的 驱动 右 可 以 把 单独 的 bio 结构 体 ( 原 本 是 为 
单个 设备 使 用 准备 的 )， 分 割 到 RAID 阵列 中 的 各 个 硬盘 上 去 。RAID 设备 驱动 只 需要 拷贝 这 个 
bio 结构 体 ， 再 把 bi_idx 域 设 置 为 每 个 独立 硬盘 操作 时 需要 的 位 置 就 可 以 了 。 

bi_cnt 域 记 录 bio 结构 体 的 使 用 计数 ， 如 果 该 域 值 减 为 0， 就 应 该 撤销 该 bio 结构 体 ， 并 释 
放 它 占用 的 内 存 。 通 过 下 面 两 个 函数 管理 使 用 计数 。 


void bio get lstruct bio *bio) 
void bio put{struct bio *bio) 


前 者 增加 使 用 计数 ， 后 者 减少 使 用 计数 〈 如 果 计 数 减 到 0， 则 撤销 bio 结构 体 )。 在 操作 正 
在 活动 的 bio 结构 体 时 ， 一 定 要 首先 增加 它 的 使 用 计数 ， 以 免 在 操作 过 程 中 该 bio 结构 体 被 释 
放 ; 相反 ， 在 操作 完毕 后 ， 要 减少 使 用 计数 。 

最 后 要 说 明 的 是 bi_private 域 ， 这 是 一 个 属于 拥有 者 〈 也 就 是 创建 者 ) 的 私有 域 ， 只 有 创建 
了 bio 结构 的 拥有 者 可 以 读 写 该 域 。 


14.3.2 新 老 方法 对 比 


缓冲 区 头 和 新 的 bio 结构 体 之 间 存在 显著 差别 。bio 结构 体 代 表 的 是 IO 操作 ， 它 可 以 包括 
内 存 中 的 一 个 或 多 个 页 ; 而 另 一 方面 ，buffer head 结构 体 代 表 的 是 一 个 缓冲 区 ， 它 描述 的 仅仅 是 
磁盘 中 的 一 个 块 。 因 为 缓冲 区 头 关联 的 是 单独 页 中 的 单独 磁盘 块 ， 所 以 它 可 能 会 引起 不 必要 的 分 
割 ， 将 请 求 按 块 为 单位 划分 ， 只 能 靠 以 后 才能 再 重新 组 合 。 由 于 bio 结构 体 是 轻 量 级 的 ， 它 描述 
的 块 可 以 不 需要 连续 存储 区 ， 并 且 不 需要 分 割 IO 操作。 
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利用 bio 结构 体 代替 buffer_bead 结构 体 还 有 以 下 好 处 : 
“bio 结构 体 很 容易 处 理 高 端 内 存 ， 因 为 它 处 理 的 是 物理 页 而 不 是 直接 指针 。 
“bio 结构 体 既 可 以 代表 普通 页 TO， 同 时 也 可 以 代表 直接 IO 〈 指 那些 不 通过 页 高 速 缓 存 的 
LO 操作 一 一 请 参考 第 16 章 中 对 页 高 速 缓存 的 讨论 )。 
“bio 结构 体 便 于 执行 分 散 一 集中 矢量 化 的 ) 块 WO 操作 ， 操 作 中 的 数据 可 取 自 多 个 物理 页 面 。 
* bio 结构 体 相 比 缓冲 区 头 属于 轻 量 级 的 结构 体 。 因 为 它 只 需要 包含 块 TO 操作 所 需 的 信息 就 
行 了 ， 不 用 包含 与 缓冲 区 本 身 相 关 的 不 必要 信息 。 
但 是 还 是 需要 缓冲 区 头 这 个 概念 ， 毕 竟 它 还 负责 描述 磁盘 块 到 页 面 的 映射 。bio 结构 体 不 包 
含 任何 和 缓冲 区 相关 的 状态 信息 一 一 它 仅仅 是 一 个 矢量 数组 ， 摘 述 一 个 或 多 个 单独 块 VO 操作 
的 数据 片段 和 相关 信息 。 在 当前 设置 中 ， 当 bio 结构 体 描 述 当前 正在 使 用 的 IO 操作 时 ，buffer _ 
head 结构 体 仍然 需要 包 合 缓 钟 区 信息 。 内 核 通 过 这 两 种 结构 分 别 保存 各 目的 信息 ， 可 以 保证 每 
种 结构 所 含 的 信息 量 尽 可 能 地 少 。 


14.4 请求 队列 


块 设备 将 它们 挂 起 的 块 IO 请 求 保存 在 请 求 队 列 中 ， 该 队列 由 reques_queue 结构 体 表示 ， 定 
义 在 文件 <linux/blkdev.h> 中 ， 包 含 一 个 双向 请 求 链表 以 及 相关 控制 信息 。 通 过 内 核 中 像 文件 系 
统 这 样 高 层 的 代码 将 请 求 加 入 到 队列 中 。 请 求 队列 只 要 不 为 空 ， 队 列 对 应 的 块 设备 驱动 程序 就 会 
从 队列 头 歼 取 请 求 ， 然 后 将 其 送 入 对 应 的 块 设备 上 去 。 请 求 队列 表 中 的 每 一 项 都 是 一 个 单独 的 请 
求 ， 由 reques 结构 体 表示 。 

队列 中 的 请 求 由 结构 体 request 表示 ， 它 定义 在 文件 <linux/blkdev.h> 中 。 因 为 一 个 请 求 可 能 
要 操作 多 个 连续 的 磁盘 块 ， 所 以 每 个 请 求 可 以 由 多 个 bio 结构 体 组 成 。 注 意 ， 虽 然 磁盘 上 的 块 必 
须 连 续 ， 但 是 在 内 存 中 这 些 块 并 不 一 定 要 连续 一 一 每 个 bio 结构 体 都 可 以 描述 多 个 片段 (回忆 一 
下 ， 片 段 是 内 存 中 连续 的 小 区 域 )， 而 每 个 请 求 也 可 以 包含 多 个 bio 结构 体 。 


14.5 1/O 调度 程序 


如 果 简单 地 以 内 核 产 生 请 求 的 次 序 直 接 将 请 求 发 向 块 设 备 的 话 ， 性 能 肯定 让 人 难以 接受 。 磁 
盘 寻 址 是 整个 计算 机 中 最 慢 的 操作 之 一 ， 每 一 次 寻 址 〈 定 位 硬盘 磁头 到 特定 块 上 的 基 个 位 置 ) 需 
要 人 花费 不 少时 间 。 所 以 尽量 缩短 寻 址 时 间 无 疑 是 提高 系统 性 能 的 关键 。 

为 了 优化 寻 址 操作 ， 内 核 既 不 会 简单 地 按 请 求 接收 次 序 ， 也 不 会 立即 将 其 提交 给 磁盘 。 相 
反 ， 它 会 在 提交 前 ， 先 执行 名 为 合并 与 排序 的 预 操作 ， 这 种 预 操 作 可 以 极 大 地 提高 系统 的 整体 性 
能 弓 。 在 内 核 中 负责 提交 IO 请 求 的 子 系统 称 为 IO 调度 程序 。 

LO 调度 程序 将 磁盘 IO 资源 分 配给 系统 中 所 有 挂 起 的 块 IO 请 求 。 具 体 地 说 ， 这 种 资源 分 
配 是 通过 将 请 求 队列 中 挂 起 的 请 求 合 并 和 排序 来 完成 的 。 注 意 不 要 将 LO 调度 程序 和 进程 调度 程 
序 〈 请 看 第 4 章 ) 混淆 。 进 程 调度 程序 的 作用 是 将 处 理 器 资源 分 配给 系统 中 的 运行 进程 。 这 两 种 


日 这 一 后 天 要 强调 。 和 如 果 一 个 系统 役 有 这 些 功能 ， 或 者 这 些 功 能 实现 得 很 大 ， 那 么 即使 是 数量 不 大 的 块 IO 操 
作 ， 执 行 性 能 也 会 很 精 糕 。 
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子 系统 看 起 来 非常 相似 ， 但 并 不 相同 。 进 程 调度 程序 和 IO 调度 程序 都 是 将 一 个 资源 虚拟 给 多 个 
对 象 ， 对 进程 调度 程序 来 说 ， 处 理 器 被 虚拟 并 被 系统 中 的 运行 进程 共享 。 这 种 虚拟 提供 给 用 户 的 
就 是 多 任务 和 分 时 操作 系统 ， 像 Unix 系统 。 相 反 ，LO 调度 程序 虚拟 块 设备 给 多 个 磁盘 请 求 ， 以 
便 降 低 磁 盘 寻 址 时 间 ， 确 保 磁盘 性 能 的 最 优化 。 


14.5.1 lO 调度 程序 的 工作 


LO 调度 程序 的 工作 是 管理 块 设备 的 请 求 队列 。 它 决定 队列 中 的 请 求 排列 顺序 以 及 在 什么 时 
刻 派 发 请 求 到 块 设备 。 这 样 做 有 利于 减少 磁盘 寻 址 时 间 ， 从 而 提高 全 局 吞吐 量 。 注 意 ， 全 局 这 个 
定语 很 重要 ， 坦 率 地 讲 ， 一 个 VO 调度 器 可 能 为 了 提高 系统 整体 性 能 ， 而 对 某 些 请 求 不 公 。 

LO 调度 程序 通过 两 种 方法 减少 磁盘 寻 址 时 间 : 合并 与 排序 。 合 并 指 将 两 个 或 多 个 请 求 结合 
成 一 个 新 请 求 。 考 虑 一 下 这 种 情况 ， 文 件 系统 提交 请 求 到 请 求 队列 一 一 从 文件 中 读 取 一 个 数据 
区 《当然 ， 基 终 所 有 的 操作 都 是 针对 局 区 和 块 进行 的 ， 而 不 是 文件 ， 还 假定 请 求 的 块 都 是 来 自 文 
件 块 )， 如 果 这 时 队列 中 已 经 存在 一 个 请 求 ， 它 访问 的 磁盘 局 区 和 当前 请 求 访问 的 磁盘 局 区 相 邻 
《比如 ， 同 一 个 文件 中 早 些 时 候 被 读 取 的 数据 区 )， 那 么 这 两 个 请 求 就 可 以 合并 为 一 个 对 单个 和 多 
个 相 邻 磁盘 局 区 操作 的 新 请 求 。 通 过 合并 请 求 ，LO 调度 程序 将 多 次 请 求 的 开销 压缩 成 一 次 请 求 
的 开销 。 更 重要 的 是 ， 请 求 合并 后 只 需要 传递 给 磁盘 一 条 寻 址 命令 ， 就 可 以 访问 到 请 求 合并 前 必 
须 多 次 寻 址 才能 访问 完 的 磁盘 区 域 了 ， 因 此 合并 请 求 显然 能 减少 系统 开销 和 磁盘 寻 址 次 数 。 

现在 ， 假 设 在 读 请 求 被 提交 给 请 求 队列 的 时 候 ， 队 列 中 并 不 需要 操作 相 邻 扇 区 的 其 他 请 求 ， 此 
时 就 无 法 将 当前 请 求 与 其 他 请 求 合 并 ， 当 然 ， 可 以 将 其 插入 请 求 队列 的 尾部 。 但 是 如 果 有 其 他 请 求 
需要 操作 磁盘 上 类 似 的 位 置 呢 ? 如 果 存 在 一 个 请 求 ， 它 要 操作 的 磁盘 局 区 位 置 与 当前 请 求 比较 接近 ， 
那么 是 不 是 该 让 这 两 个 请 求 在 请 求 队列 上 也 相 邻 呢 ? 事实 上 ，IO 调度 程序 的 确 是 这 样 处 理 上 述 情况 
的 ， 整 个 请 求 队列 将 按 局 区 增长 方向 有 序 排 列 。 使 所 有 请 求 按 硬 盘 上 扇 区 的 排列 顺序 有 序 排列 〈 尽 
可 能 的 ) 的 目的 不 仅 是 为 了 缩短 单独 一 次 请 求 的 寻 址 时 间 ， 更 重要 的 优化 在 于 ， 通 过 保持 磁盘 头 以 
直线 方向 移动 ， 缩 短 了 所 有 请 求 的 磁盘 寻 址 时 间 。 该 排序 算法 类 似 于 电梯 调度 一 一 电梯 不 能 随意 地 
从 一 层 跳 到 另 一 层 ， 它 应 该 站 一 个 方 癌 移动 ， 当 抵达 了 同一 方向 上 的 最 后 一 屋 后 ， 再 掉头 癌 另 一 个 
方向 移动 。 出 于 这 种 相似 性 ， 所 以 VO 调度 程序 (或 这 种 排序 算法 ) 称 作 电梯 调度 。 


14.5.2 Linus 电梯 


下 面 看 看 Linux 中 实际 使 用 的 IO 调度 程序 。 我 们 看 到 的 第 一 个 IO 调度 程序 称 为 Linus 电 
梯 〈 设 错 ，Linus 确实 是 用 他 的 名 字 命 名 了 这 个 电梯 )。 在 2.4 版 内 核 中 ，Linus 电梯 是 默认 的 IO 
调度 程序 。 虽 然后 来 在 2.6 版 内 核 中 它 被 另外 两 种 调度 程序 取代 了 ， 但 是 由 于 这 个 电梯 比 后 来 的 
调度 程序 简单 ， 而 且 它 们 执行 的 许多 功能 都 相似 ， 所 以 它 可 以 作为 一 个 优秀 的 入 门 介 绍 程序 。 

Linus 电梯 能 执行 合并 与 排序 预 处 理 。 当 有 新 的 请 求 加 入 队列 时 ， 它 首先 会 检查 其 他 每 一 个 : 
挂 起 的 请 求 是 否 可 以 和 新 请 求 合 并 。Linus 电梯 IO 调度 程序 可 以 执行 向 前 和 向 后 合并 ， 合 并 类 
型 描述 的 是 请 求 向 前 面 还 是 向 后 面 ， 这 一 点 和 已 有 请 求 相 连 。 如 果 新 请 求 正 好 连 在 一 个 现存 的 请 
求 前 ， 就 是 向 前 合并 ; 相反 如 果 新 请 求 直接 连 在 一 个 现存 的 请 求 后 ， 就 是 向 后 合并 。 鉴 于 文件 的 
分 布 〈 通 常 以 局 区 号 的 增长 表现 ) 特点 和 LO 操作 执行 方式 具有 典型 性 (一般 都 是 从 头 读 向 尾 ， 
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很 少 从 反方 向 读 )， 所 以 向 前 合并 相 比 向 后 合并 要 少 得 多 ， 但 是 Linus 电梯 还 是 会 对 两 种 合并 类 
型 都 进行 检查 。 

如 果 合 并 尝试 失败 ， 那 么 就 需要 寻找 可 能 的 插入 点 (新 请 求 在 队列 中 的 位 置 必须 符合 请 求 以 
启 区 方向 有 序 排序 的 原则 )。 如 果 找 到 ， 新 请 求 将 被 插入 到 该 点 ; 如 果 没 有 合适 的 位 置 ， 那 么 新 
请 求 就 被 加 入 到 队列 尾部 。 另 外 ， 如 果 发 现 队列 中 有 驻 留 时 间 过 长 的 请 求 ， 那 么 新 请 求 也 将 被 加 
人 和 到 队列 尾部 ， 即 使 插入 后 还 要 排序 。 这 样 做 是 为 了 避免 由 于 访问 相近 磁盘 位 置 的 请 求 太 多 ， 从 
而 造成 访问 磁盘 其 他 位 置 的 请 求 难以 得 到 执行 机 会 这 一 问题 。 不 幸 的 是 ， 这 种 “年 龄 ”检测 方法 
并 不 很 有 效 ， 因 为 它 并 非 是 给 等 待 了 一 段 时 间 的 请 求 提供 实质 性 服务 ， 它 仅仅 是 在 经 过 了 一 定时 
闻 后 停止 插入 一 排序 请 求 ， 这 改善 了 等 待 时 间 但 最 终 还 是 会 导致 请 求 饥饿 现象 的 发 生 ， 所 以 这 
是 一 个 2.4 内 核 TO 调度 程序 中 必须 要 修改 的 缺陷 。 

总 而 言 之 ， 当 一 个 请 求 加 入 到 队列 中 时 ， 有 可 能 发 生 四 种 操作 ， 它 们 依次 是 : 

1) 如 果 队 列 中 已 存在 一 个 对 相 邻 磁盘 而 区 操作 的 请 求 ， 那 么 新 请 求 将 和 这 个 已 经 存在 的 请 
求 合并 成 一 个 请 求 。 

2) 如 果 队 列 中 存在 一 个 驻 留 时 间 过 长 的 请 求 ， 那 么 新 请 求 将 被 插 人 到 队列 尾部 ， 以 防止 其 
他 旧 的 请 求 饥饿 发 生 。 

3) 如 果 队 列 中 以 遍 区 方向 为 序 存在 合适 的 插 和 位置， 那么 新 的 请 求 将 被 插 人 到 该 位 置 ， 保 
证 队列 中 的 请 求 是 以 被 访问 磁盘 物理 位 置 为 序 进行 排列 的 。 

4) 如 果 队 列 中 不 存在 合适 的 请 求 插 和 位置， 请求 将 被 插入 到 队列 尾部 。 


14.5.3 最终 期 限 I/O 调度 程序 


最 终 期 限 (deadline ) LO 调度 程序 是 为 了 解决 Linus 电梯 所 带 来 的 饥饿 问题 而 提出 的 。 出 于 
减少 磁盘 寻 址 时 间 的 考虑 ， 对 某 个 磁盘 区 域 上 的 繁重 操作 ， 无 疑 会 使 得 磁盘 其 他 位 置 上 的 操作 请 
求 得 不 到 运行 机 会 。 实 际 上 ， 一 个 对 磁盘 同一 位 置 操作 的 请 求 流 可 以 造成 较 远 位 置 的 其 他 请 求 永 
远 得 不 到 运行 机 会 ， 这 是 一 种 很 不 公平 的 饥饿 现象 。 

更 精 粒 的 是 ， 普 通 的 请 求 饥饿 还 会 带 来 名 为 写 一 饥饿 一 读 (writes-starving-reads ) 这 种 特殊 
问题 。 写 操作 通常 是 在 内 核 有 空 时 才 将 请 求 提交 给 磁盘 的 ， 写 操作 完全 和 提交 它 的 应 用 程序 异步 
执行 ; 读 操 作 则 恰恰 相反 ， 通 常 当 应 用 程序 提交 一 个 读 请 求 时 ， 应 用 程序 会 发 生 堵 塞 直 到 读 请 求 
被 满足 ， 也 就 是 说 ， 读 操作 是 和 提交 它 的 应 用 程序 同步 执行 的 。 所 以 虽然 写 反 应 时 间 (提交 写 请 
求 花费 的 时 间 ) 不 会 给 系统 响应 速度 造成 很 大 影响 ， 但 是 读 响 应 时 间 〈 提 交 读 请 求 花 费 的 时 间 ) 
对 系统 响应 时 间 来 说 却 非 同 小 可 。 虽 然 写 请 求 时 间 对 应 用 程序 性 能 昌 带 来 的 影响 不 大 ， 但 是 应 用 
程序 却 必须 等 待 读 请 求 完 成 后 才能 运行 其 他 程序 ， 所 以 读 操作 响应 时 间 对 系统 的 性 能 非常 重要 。 

问题 还 可 能 更 严重 ， 这 是 因为 读 请 求 往往 会 相互 依靠 。 比 如 ， 要 读 大 量 的 文件 ， 每 次 都 是 针 
对 一 块 很 小 的 缓冲 区 数据 区 进行 读 操作 ， 而 应 用 程序 只 有 将 上 一 个 数据 区 从 磁盘 中 读 取 并 返回 之 
后 ， 才 能 继续 读 取 下 一 个 数据 区 (或 下 一 个 文件 )。 精 糕 的 是 ， 不 管 是 读 还 是 写 ， 二 者 都 需要 读 


全 不过， 我 们 还 是 不 打算 把 写 请 求 无 限期 地 延迟 下 去 ， 因 为 内 棱 想 确保 数据 最 终 能 写 到 磁盘 ， 以 避免 在 内 存 组 
冲 区 中 的 数据 变 得 越 来 越 多 或 者 太 陈 旧 。 
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取 像 素 引 节点 这 样 的 元 数据 。 从 磁盘 进一步 读 取 这 些 块 会 使 VO 操作 品行 化 。 所 以 如 果 每 一 次 请 
求 都 发 生 饥 饿 现象 ， 那 么 对 读 取 文件 的 应 用 程序 来 说 ， 全 部 延迟 加 起 来 会 造成 过 长 的 等 待 时 间 ， 
让 有 用户 无 法 忍受 。 综 上 所 述 ， 读 操作 具有 同步 性 ， 并 且 彼 此 之 间 往 往 相 互 依靠 ， 所 以 读 请 求 响 
应 时 间 直 接 影 响 系 统 性 能 ， 因 此 2.6 版 本 内 核 新 引入 了 最 后 期 限 IO 调度 程序 来 减少 请 求 饥 饿 现 
象 ， 特 别 是 读 请 求 饥 饿 现象 。 

往 意 ， 减 少 请 求 饥 俄 必须 以 降低 全 局 吞吐 量 为 代价 。Linus 电梯 调度 程序 虽然 也 做 了 这 样 的 
折 中 ， 但 显然 不 够 一 一 Linus 电梯 可 以 提供 更 好 的 系统 吞吐 量 (通过 最 小 化 寻 址 )， 可 是 它 总 按照 
局 区 顺序 将 请 求 插入 到 队列 ， 从 不 检查 驻 留 时 间 过 长 的 请 求 ， 更 不 会 将 请 求 插 入 到 列队 尾部 ， 所 
以 它 虽 然 能 让 寻 址 时 间 最 短 ， 但 是 却 会 带 来 同样 不 可 取 的 请 求 饥饿 问题 。 为 了 避免 饥饿 同时 提供 
良好 的 全 局 吞吐 量 ， 最 后 期 限 IO 调度 程序 做 了 更 多 的 努力 。 既 要 尽量 提高 全 局 吞吐 量 ， 又 要 使 
请 求 得 到 公平 处 理 ， 这 是 很 困难 的 。 

在 最 后 期 限 IO 调度 程序 中 ， 每 个 请 求 都 有 一 个 超时 时 间 。 上 默认 情况 下 ， 读 请 求 的 超时 时 间 
是 500ms， 写 请 求 的 超时 时 间 是 5s。 最 后 期 限 IO 调度 请 求 类 似 于 Linus 电梯 ， 也 以 磁盘 物理 位 
置 为 次 序 维护 请 求 队 列 ， 这 个 队列 称 为 排序 队列 。 当 一 个 新 请 求 递 交 给 排序 队列 时 ， 量 后 期 限 1/ 
O 调度 程序 在 执行 合并 和 插入 请 求 时 类 似 于 Linus 电梯 号 ， 但 是 最 后 期 限 IO 调度 程序 同时 也 会 
以 请 求 类 型 为 依据 将 它们 插入 到 额外 队列 中 。 读 请 求 按 次 序 被 插入 到 特定 的 读 FIFO 队列 中 ， 写 
请 求 被 插入 到 特定 的 写 FIFO 队列 中 。 虽 然 普 通 队 列 以 磁盘 扁 区 为 序 进行 排列 ， 但 是 这 些 队 列 是 
以 FIFO (很 有 效 ， 以 时 间 为 基 崔 排序 ) 形式 组 织 的 ， 结 果 新 队列 总 是 被 加 人 到 队列 尾部 。 对 于 
普通 操作 来 说 ， 最 后 期 限 IO 调度 程序 将 请 求 从 排序 队列 的 头 部 取 下 ， 再 推 人 到 派发 队列 中 ， 派 
发 队列 然后 和 将 请 求 提交 给 磁盘 驱动 ， 从 而 保证 了 最 小 化 的 请 求 寻 址 。 

如 果 在 写 FIFO 队列 头 ， 或 是 在 读 FIFO 队列 头 的 请 求 超时 《〈 也 就 是 ， 当 前 时 间 超 过 了 请 求 
指定 的 超时 时 间 )， 和 那么 最 后 期 限 IO 调度 程序 便 从 FIFO 队列 中 提取 请 求 进行 服务 。 依 靠 这 种 
方法 ， 最 后 期 限 IO 调度 程序 试图 保证 不 会 发 生 有 请 求 在 明显 超期 的 情况 下 仍 不 能 得 到 服务 的 现 
象 ， 参 见 图 14-3。 
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图 14-3 ”最 后 期 限 IO 调度 程序 的 三 个 队列 


注意 ， 最 后 期 限 VO 调度 算法 并 不 能 严格 保证 请 求 的 啊 应 时 间 ， 但 是 通 常情 况 下 ， 可 以 在 请 
求 超时 或 超时 前 提交 和 执行 ， 以 防止 请 求 饥饿 现象 的 发 生 。 由 于 读 请 求 给 定 的 超时 时 间 要 比 写 请 
求 短 许多 ， 所 以 最 后 期 限 VO 调度 器 也 确保 了 写 请 求 不 会 因为 堵塞 读 请 求 而 使 读 请 求 发 生 饥饿 。 
这 种 对 读 操作 的 照顾 确保 了 读 啊 应 时 间 尽 可 能 短 。 


日 、 最 后 期 限 WO 排序 执行 向 前 合并 是 一 个 可 选项 。 因 为 读 操作 请 求 通常 很 少 需要 向 前 合并 ， 所 以 向 前 合并 通常 不 
必 考 虚 。 
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最 后 期 限 IO 调度 程序 的 实现 在 文件 block/deadline-iosched.c 中 。 


14.5.4 预测 I/O 调度 程序 


虽然 最 后 期 限 IO 调度 程序 为 降低 读 操作 啊 应 时 间 做 了 许多 工作 ， 但 是 它 同 时 也 降低 了 系统 
吞吐 量 。 假 设 一 个 系统 处 于 很 繁重 的 写 操作 期 间 ， 每 次 提交 读 请 求 ，LO 调度 程序 都 会 迅速 处 理 
读 请 求 ， 所 以 磁盘 首先 为 读 操作 进行 寻 址 ， 执 行 读 操作 ， 然 后 返回 再 寻 址 进行 写 操 作 ， 并 且 对 每 
个 读 请 求 都 重复 这 个 过 程 。 这 种 做 法 对 读 请 求 来 说 是 件 好 事 ， 但 是 两 次 寻 址 操作 (一 次 对 读 操 作 
定位 ， 一 次 返回 来 进行 写 操作 定位 ) 却 损害 了 系统 全 局 吞吐 量 。 预 副 (Anticipatory) LO 调度 程 
序 的 目标 就 是 在 保持 良好 的 读 响 应 的 同时 也 能 提供 良好 的 全 局 吞吐 量 。 

预测 IO 调度 的 基础 仍然 是 最 后 期 限 UO 调度 程序 ， 所 以 它们 有 很 多 相同 之 处 。 预 测 IO 
调 府 程序 也 实现 了 三 个 队列 (加 上 一 个 派发 队列 )， 并 为 每 个 请 求 设置 了 超时 时 间 ， 这 点 与 最 
后 期 限 IO 调度 程序 一 样 。 预 测 IO 调度 程序 最 主要 的 改进 是 它 增 加 了 预测 启发 (anticipation- 
heuristic ) 能 力 。 

预测 IO 调度 试图 减少 在 进行 IO 操作 期 间 ， 处 理 新 到 的 读 请 求 所 带 来 的 寻 址 数量 。 和 最 后 
期 限 IO 调度 程序 一 样 ， 读 请 求 通常 会 在 超时 前 得 到 处 理 ， 但 是 预测 IO 调度 程序 的 不 同 之 处 在 
于 ， 请 求 提 交 后 并 不 直接 返回 处 理 其 他 请 求 ， 而 是 会 有 意 空闲 片刻 《实际 空闲 时 间 可 以 设置 ， 默 
认为 6ms)。 这 几 ms， 对 应 用 程序 来 说 是 个 提交 其 他 读 请 求 的 好 机 会 一 一 任何 对 相 邻 磁盘 位 置 操 
作 的 请 求 都 会 立刻 得 到 处 理 。 在 等 待 时 间 结 束 后 ， 预 测 IO 调度 程序 重新 返回 原来 的 位 置 ， 继 续 
执行 以 前 剩 下 的 请 求 。 

要 注意 ， 如 果 等 待 可 以 减少 读 请 求 所 带 来 的 向 后 再 向 前 (back-and-forth) 寻 址 操作 ， 那 么 
完全 值得 花 一 些 时 间 来 等 待 更 多 的 请 求 ; 如 果 一 个 相 邻 的 VO 请 求 在 等 待 期 到 来 ， 那 么 IO 调度 
程序 可 以 节省 两 次 寻 址 操作 。 如 果 存 在 愈 来 全 多 的 访问 同样 区 域 的 读 请 求 到 来 ， 那 么 片刻 等 待 无 
疑 会 避免 大 量 的 寻 址 操作 。 

当然 ， 如 果 没 有 IO 请 求 在 等 待 期 到 来 ， 那 么 预测 IO 调度 程序 会 给 系统 性 能 带 来 轻微 的 损 
失 ， 浪费 掉 几 ms。 预 测 WO 调度 程序 所 能 带 来 的 优势 取决 于 能 否 正 确 预 测 应 用 程序 和 文件 系统 
的 行为 。 这 种 预测 依靠 一 系列 的 启发 和 统计 工作 。 预 测 IO 调度 程序 跟踪 并 且 统 计 每 个 应 用 程序 
块 UVO 操作 的 习惯 行为 ， 以 便 正 确 预测 应 用 程序 的 未 来 行为 。 如 果 预 副 准确 率 足 使 高 ， 那 么 预测 
调度 程序 便 可 以 大 大 减少 服务 读 请 求 所 需 的 寻 址 开销 ， 而 且 同 时 仍 能 福 足 请 求 所 需要 的 系统 啊 应 
时 间 要 求 。 这 样 的 话 ， 预 测 IO 调度 程序 既 减 少 了 读 响 应 时 间 ， 又 能 减少 寻 址 次 数 和 时 间 ， 所 以 
说 它 既 缩 得 了 系统 响应 时 间 ， 又 提高 了 系统 吞吐 量 。 

预测 IO 调度 程序 的 实现 在 文件 内 核 源 代码 树 的 block/as-iosched.c 中 ， 它 是 Linux 内 核 中 缺 
省 的 IO 调度 程序 ， 对 大 多 数 工作 负荷 来 说 都 执行 良好 ， 对 服务 器 也 是 理想 的 。 不 过 ， 在 某 些 非常 
见 而 又 有 严格 工作 负荷 的 服务 器 〈 包 括 数据 库 挖 掘 服务 器 ) 上 ， 这 个 调度 程序 执行 的 效果 不 好 。 


14.5.5 ”完全 公正 的 排队 I/O 调度 程序 


完全 公正 的 排队 IO 调度 程序 ( Complete Fair Queuing ，CFQ) 是 为 专 有 工作 负荷 设计 的 ， 
不 过 ， 在 实际 中 ， 也 为 多 种 工作 负荷 提供 了 良好 的 性 能 。 但 是 ， 它 与 前 面 介绍 的 VO 调度 程序 有 
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根本 的 不 同 。 

CFQ LO 调度 程序 把 进入 的 IO 请 求 放 入 特定 的 队列 中 ,这 种 队列 是 根据 引起 IO 请 求 的 进 
程 组 织 的 。 例 如 ， 来 自 foo 进程 的 VO 请 求 进入 foo 队列 ， 而 来 自 bar 进程 的 IO 请求 进 入 bar 队 
列 。 在 每 个 队列 中 ， 刚 进入 的 请 求 与 相 邻 请 求全 并 在 一 起 ， 并 进行 插入 分 类 。 队 列 由 此 按 扇 区 方 
式 分 类 ， 这 与 其 他 IO 调度 程序 队列 类 似 。CFQ LO 调度 程序 的 差异 在 于 每 一 个 提交 VO 的 进程 
都 有 目 己 的 队列 。 

CFQ IO 调度 程序 以 时 间 片 轮转 调度 队列 ， 从 每 个 队列 中 选取 请 求 数 〈 软 认 值 为 4， 可 以 进行 配 
置 )， 然 后 进行 下 一 轮 调 度 。 这 就 在 进程 级 提供 了 公平 ， 确 保 每 个 进程 接收 公平 的 磁盘 带宽 片断 。 预 
定 的 工作 负荷 是 多 媒体 ， 在 这 种 媒体 中 ， 这 种 公平 的 算 靶 可 以 得 到 保证 ， 比 如 ， 音 频 播 放 器 总 能 够 
及 时 从 磁盘 再 填 请 它 的 音频 缓冲 区 。 不 过 ， 实 际 上 ，CFQ IO 调度 程序 在 很 多 场合 都 能 很 好 地 执行 。 

完全 公正 的 排队 LO 调度 程序 位 于 bloclvcfq-iosched.c。 尽 管 这 主要 推荐 给 桌面 工作 负荷 使 
用 ， 但 是 ， 如 采 设 有 其 他 异 芝 情况 ， 它 在 几乎 所 有 的 工作 负荷 中 都 能 很 好 地 执行 。 


14.5.6 ” 空 操 作 的 MO 调度 程序 


第 四 种 也 是 最 后 一 种 IO 调度 程序 是 空 操 作 (Noop) LO 调度 程序 ， 之 所 以 这 样 命名 是 因为 
它 基 本 上 是 一 个 空 操作 ， 不 做 多 少 事 情 。 空 操作 LO 调度 程序 不 进行 排序 ， 或 者 也 不 进行 什么 其 
他 形式 的 预 寻 址 操作 。 依 此 类 推 ， 它 也 没 必 要 实现 那些 老 套 的 算法 ， 也 就 是 在 以 前 的 IO 调度 程 
序 中 看 到 的 为 了 最 小 化 请 求 周期 而 采用 的 算法 。 

不 过 ， 空 操作 IO 调度 程序 忘 不 了 执行 合并 ， 这 就 像 它 的 家 务 事 。 当 一 个 新 的 请 求 提交 到 队 
列 时 ， 就 把 它 与 任 一 相 邻 的 请 求 合 并 。 除 了 这 一 操作 ， 空 操作 IO 调度 程序 的 确 再 不 做 什么 ， 只 
是 维护 请 求 队列 以 近乎 FIFO 的 顺序 排列 ， 块 设备 驱动 程序 便 可 以 从 这 种 队列 中 摘 取 请 求 。 

空 操作 IO 调度 程序 不 勤奋 工作 是 有 道理 的 。 因 为 它 打 算 用 在 块 设备 ， 那 是 真正 的 随机 访问 
设备 ， 比 如 内 存 卡 。 如 果 块 设备 只 有 一 点 或 者 没有 有 “ 寻 道 ”的 负担 ， 那 么 ， 就 没有 必要 对 进入 的 
请 求 进行 插入 排序 ， 因 此 ， 空 操作 IO 调度 程序 是 理想 的 候选 者 。 

空 操 作 IO 调度 程序 位 于 block/noop-iosched.c， 它 是 专 为 随机 访问 设备 而 设计 的 。 


14.5.7 MO 调度 程序 的 选择 


你 现在 已 经 看 到 2.6 内 核 中 四 种 不 同 的 WO 调度 程序 。 其 中 的 每 一 种 IO 调度 程序 都 可 以 被 
启用 ， 并 内 置 在 内 核 中 。 作 为 缺 省 ， 块 设备 使 用 完全 公平 的 VO 调度 程序 。 在 启动 时 ， 可 以 通过 
命令 行 选项 elevator=foo 来 覆盖 缺 省 ， 这 里 foo 是 一 个 有 效 而 激活 的 IO 调度 程序 ， 参 看 表 14-2。 


表 14-2 给 定 elevator 选项 的 参数 


参 数 IO 调度 程序 
as 预测 

cfq 完全 公正 的 排队 
deadline 最 终 期 限 


noop 空 操 作 
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例如 ， 内 核 命令 行 选项 elevator=as 会 启用 预测 IO 调度 程序 给 所 有 的 块 设 备 ， 从 而 覆盖 默 
认 的 完全 公正 调度 程序 。 


14.6 ”小 结 


在 本 章 中 ， 我 们 讨论 了 块 设备 的 基本 知识 ， 并 考察 了 块 IO 层 所 用 的 数据 结构 :; bio， 表 示 
活动 的 IO 操作 ; buffer_head， 表 示 块 到 页 的 映射 ; 还 有 请 求 结 构 ， 表 示 具 体 的 IO 请 求 。 我 们 
追寻 了 LO 请 求 简单 但 重要 的 生命 历程 ， 其 生命 的 重要 点 就 是 IO 调度 程序 。 我 们 讨论 了 IO 调 
度 程序 所 涉及 的 困惑 问题 ， 同 时 仔细 推 殴 了 当前 内 核 的 4 种 IO 调度 程序 ， 以 及 2.4 版 本 中 原 有 
的 linus 电梯 调度 。 

我 们 将 在 第 15 章 讨论 进程 地 址 空间 。 


第 49 章 
进程 地 址 空间 


第 12 章 介绍 了 内 核 如 何 管理 物理 内 存 。 其 实 内 核 除了 管理 本 身 的 内 存 外 ， 还 必须 管理 用 户 
空间 中 进程 的 内 存 。 我 们 称 这 个 内 存 为 进程 地 址 空间 ， 也 就 是 系统 中 每 个 用 户 空 间 进 程 所 看 到 
的 内 存 。Linux 操作 系统 采用 虚拟 内 存 技 术 ， 因 此 ， 系 统 中 的 所 有 进程 之 间 以 虚拟 方式 共享 内 
存 。 对 一 个 进程 而 言 ， 它 好 像 都 可 以 访问 整个 系统 的 所 有 物理 内 存 。 更 重要 的 是 ， 即 使 单独 一 
个 进程 ， 它 拥有 的 地 址 空间 也 可 以 远 远 大 于 系统 物理 内 存 。 本 章 将 集中 讨论 内 核 如 何 管理 进程 
地 址 空间 。 


15.1 地址 空间 


进程 地 址 空间 由 进程 可 寻 址 的 虚拟 内 存 组 成 ， 而 且 更 为 重要 的 特点 是 内 核 人 允许 进程 使 用 这 种 
虚拟 内 存 中 的 地 址 。 每 个 进程 都 有 一 个 32 位 或 64 位 的 平坦 (flat〉 地 址 空间 ， 空 间 的 具体 大 小 取 
决 于 体系 结构 。 术 语 “ 平 坦 ” 指 的 是 地 址 空间 范围 是 一 个 独立 的 连续 区 间 《〈 比 如 ， 地 址 从 0 扩展 
到 4294967295 的 32 位 地 址 空间 )。 一 些 操作 系统 提供 了 段 地 址 空间 ， 这 种 地 址 空间 并 非 是 一 个 独 
立 的 线性 区 域 ， 而 是 被 分 段 的 ， 但 现代 采用 虚拟 内 存 的 操作 系统 通常 都 使 用 平坦 地 址 空间 而 不 是 
分 段 式 的 内 存 模式 。 通 常情 况 下 ， 每 个 进程 都 有 唯一 的 这 种 平坦 地 址 空间 。 一 个 进程 的 地 址 空间 
与 另 一 个 进程 的 地 址 空间 即使 有 相同 的 内 存 地 址 ， 实 际 上 也 徙 此 互 不 相干 。 我 们 称 这 样 的 进程 为 
线程 。 

内 存 地 址 是 一 个 给 定 的 值 ， 它 要 在 地 址 空间 范围 之 内 ， 比 如 4021f000。 这 个 值 表示 的 是 进程 
32 位 地 址 空间 中 的 一 个 特定 的 字 节 。 尽 管 一 个 进程 可 以 寻 址 4GB 的 虚拟 内 存 〈 在 32 位 的 地 址 
空间 中 )， 但 这 并 不 代表 它 就 有 权 访 问 所 有 的 虚拟 地 址 。 在 地 址 空间 中 ， 我 们 更 为 关心 的 是 一 些 
虚拟 内 存 的 地 址 区 间 ， 比 如 08048000-0804c000， 它 们 可 被 进程 访问 。 这 些 可 被 访问 的 合法 地 址 
空间 称 为 内 存 区 域 (memory areas)。 通 过 内 核 ， 进 程 可 以 给 自己 的 地 址 空间 动态 地 添加 或 减少 
内 存 区 域 。 

进程 只 能 访问 有 效 内 存 区 域内 的 内 存 地 址 。 每 个 内 存 区 域 也 具有 相关 权限 如 对 相关 进程 有 可 
读 、 可 写 、 可 执行 属性 。 如 果 一 个 进程 访问 了 不 在 有 效 范 围 中 的 内 存 区域 ， 或 以 不 正确 的 方式 访 
问 了 有 效 地 址 ， 那 么 内 核 就 会 终止 该 进程 ， 并 返回 “ 篡 错误 ”信息 。 

内 存 区 域 可 以 包含 各 种 内 存 对 象 ， 比 如 ; 

"可 执行 文件 代码 的 内 存 上 映射 ， 称 为 代码 段 (text section ) 。 

* 可 执行 文件 的 已 初始 化 全 局 变量 的 内 存 映 射 ， 称 为 数据 段 (data section)。 
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事 厂 业 


“包含 未 初始 化 全 局 变量 ， 也 就 是 bss 段 呈 的 零 页 (页 面 中 的 信息 全 部 为 0 值 ， 所 以 可 用 于 


映 射 bss 段 等 目的 ) 的 内 存 上 映射 。 


* 用 于 进程 用 户 空间 栈 (不 要 和 进程 内 核 栈 混 清 ， 进 程 的 内 核 栈 独立 存在 并 由 内 核 维护 ) 的 


零 页 的 内 存 映射 。 


“每 一 个 诸如 C 库 或 动态 连接 程序 等 共享 库 的 代码 段 、 数 据 段 和 bss 也 会 被 载 人 进程 的 地 址 


空间 。 
* 任何 内 存 映 射 文件 。 
* 任何 共享 内 存 段 。 


* 任何 匿名 的 内 存 映 射 ， 比 如 由 malloc() 9 分 配 的 内 存 。 


进程 地 址 空间 中 的 任何 有 效 地 址 都 只 能 位 于 唯一 的 区 域 ， 这 些 内 存 区 域 不 能 相互 覆盖 。 可 以 
看 到 ， 在 执行 的 进程 中 ， 每 个 不 同 的 内 存 片段 都 对 应 一 个 独立 的 内 存 区 域 : 栈 、 对 象 代 码 、 全 局 


变量 、 被 映射 的 文件 等 。 
15.2 ”内 存 描述 符 


内 核 使 用 内 存 描述 符 结 构 体 表示 进程 的 地 址 空间 ， 读 结构 包含 了 和 进程 地 址 空间 有 关 的 全 部 
信息 。 内 存 描 述 符 由 mm_struct 结 构 体 表示 ， 定 义 在 文件 <linux/sched.h> 中 。 下 面 给 出 内 存 描述 


符 的 结构 和 各 个 域 的 描述 : 


struct mm structl| 


struct vm area struct 
struct rb root 
struct vm area struct 


unsigned long 
pgd 七 
atomic 七 
atomic 七 

int 


struct rw semaphore 


Bpinlock 七 


struct list head 


unsigned long 
Unsigned lorng 
unsigned long 
unsigned long 
Unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 
unsigned long 


*mmap; 
mm rb, 
*mmap cache; 


free area Cache; 


*pgd; 
mm USers; 
mm count; 


map count.; 
mmap_ sem; 


page_table lock; 


mmligst; 
start code; 
end code; 
satart data; 
end data; 
atart brk,; 
brk; 

start stack.; 
arg Btart; 
arg end:; 

全 TV Start; 
eny end; 


A 
in 
A 
A 
六 
A 
站 
A 
/A 
A 
二 
* 
时 
A 
A 
/A 
A 
时 
/* 
A 
A 
/* 


内 存 区 域 链表 */ 

VMR 形成 的 红 黑 树 */ 

最 近 使 用 的 内 存 区 域 */ 
地 址 空间 第 一 个 空洞 */ 
页 全 局 目录 */ 

使 用 地 址 空间 的 用 户 数 */ 
主 使 用 计数 器 */ 

内 存 区 域 的 个 数 */ 

内 存 区 域 的 信号 量 */ 


页 表 锁 */ 


所 有 mm_struct 形成 的 链表 */ 
代码 段 的 开始 地 址 */ 
代码 段 的 结束 地 址 */ 
数据 的 首 地 址 */ 
数据 的 尾 地 址 */ 

堆 的 首 地 址 */ 

堆 的 尾 地 址 */ 
进程 栈 的 首 地 址 */ 
命令 行 参 数 的 首 地 址 */ 
命令 行 参数 的 尾 地 址 */ 
环境 变量 的 首 地 址 */ 
环境 变量 的 尾 地 址 */ 


日 术语 “BSS” 已 经 有 些 年 头 了 ， 它 是 block started by symbol 的 缩写 。 因 为 未 初始 化 的 变量 没有 对 应 的 值 ， 所 
以 并 不 需要 存放 在 可 执行 对 象 中 。 但 是 因为 C 标准 强制 规定 未 初始 化 的 全 局 变量 要 被 赋 于 特殊 的 默认 值 ( 基 
本 上 是 0 值 )， 所 以 内 核 要 将 变量 〈 未 赋值 的 ) 从 可 执行 代码 载 人 到 内 存 中 ， 然 后 将 零 页 映射 到 读 片 内 存 上 ， 
于 是 这 些 未 初始 化 变 县 就 被 赋予 了 0 值 。 这 样 做 避免 了 在 目标 文件 中 显 式 地 进行 初 妈 化， 减少 了 空间 浪费 。 


四 在 最 新 版 本 的 glibc 中 ， 通 过 mmap() 和 brk0 来 实现 malloc0 邱 数 。 
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unsigned long reei /* 所 分 配 的 物理 页 */ 
unsiaqned long total wm; /* 全 部 页 面 数 目 */ 
unsigned long locked vm; +* 上 钢 的 页 面 数 目 */ 
unaigned long saved auxv [AT VECTOR SIZE] ; /* 保存 的 auxv */ 
cpumask 七 cpu_vm mask; /* 懒 情 (lazy) TLB 交换 掩 码 */ 
mm context 七 context; 1/* 体系 结构 特殊 数据 */ 
unsigned long flags; 1* 和 状态 标志 */ 

int COre WAaiters; /* 内 核 转 依 等待 线 程 */ 
struct core state *core state; /* 楼 心 转 储 的 支持 */ 
spinlock t ioctx lock,; 1/* AIO I/O 链表 锁 */ 
struct hlist head ioctx list; /* AIQ I/O 链表 */ 


}; 


mm_users 域 记录 正在 使 用 该 地 址 的 进程 数目 。 比 如 ， 如 果 两 个 线程 共享 该 地 址 空间 ， 那 么 
mm_users 的 值 便 等 于 2 ; mm _count 域 是 mm_ struct 结构 体 的 主 引 用 计数 。 所 有 的 mm users 都 
等 于 mm_count 的 增加 量 。 这 样 ， 在 前 面 的 例子 中 ，mm_count 就 仅仅 为 1。 如 果 有 9 个 线程 共享 
某 个 地 址 空间 ， 那 么 mm_users 将 会 是 9， 而 mm_count 的 值 将 再 次 为 1。 当 mm_users 的 值 减 为 
0《 即 所 有 正 使 用 该 地 址 空间 的 线程 都 退出 ) 时 ，mm_count 域 的 值 才 变 为 0。 当 mm_count 的 值 
等 于 0， 说 明 已 经 设 有 任何 指 癌 读 mm_struct 结构 体 的 引用 了 ， 这 时 该 结构 体会 被 撤销 。 当 内 核 
在 一 个 地 址 空间 上 操作 ， 并 需要 使 用 与 该 地 址 相关 联 的 引用 计数 时 ， 内 核 便 增加 mm_count。 内 
核 同 时 使 用 这 两 个 计数 器 是 为 了 区 别 主 使 用 计数 (mm_count) 器 和 使 用 该 地 址 空间 的 进程 的 数 
目 〈《mm_users ) 。 

mmap 和 mm_rb 这 两 个 不 同 数 据 结 构 体 描述 的 对 象 是 相同 的 : 该 地 址 空间 中 的 全 部 内 存 区 
域 。 但 是 前 者 以 链表 形式 存放 而 后 者 以 红 一 黑 树 的 形式 存放 。 红 一 黑 树 是 一 种 二 叉 树 ， 与 其 他 二 
叉 树 一 样 ， 搜 索 它 的 时 间 复 杂 度 为 O(log n)。 在 本 章 后 续 部 分 “内 存 区 域 的 树 型 结构 和 内 存 区 
域 的 链表 结构 ”一 节 中 ， 我 们 将 进一步 讨论 红 一 黑 树 。 

内 核 通常 会 避免 使 用 两 种 数据 结构 组 织 同一 种 数据 ， 但 此 处 内 核 这 样 的 元 余 确 实 派 得 上 用 
场 。mmap 结构 体 作 为 链表 ， 利 于 简单 、 高 效 地 遍历 所 有 元 素 ; 而 mm _tb 结构 体 作为 红 一 黑 树 ， 
更 适合 搜索 指定 元 素 。 对 内 存 区 域 的 具体 操作 将 在 本 章 的 后 续 部 分 详细 介绍 。 内 核 并 没有 复制 
mm_struct 结构 体 ， 而 仅仅 被 包含 其 中 。 覆 盖 树 上 的 链表 并 用 这 两 个 结构 体 同 时 访问 相同 的 数据 
集 ， 有 时 候 我 们 将 此 操作 称 作 线索 树 。 

所 有 的 mm struct 结构 体 都 通过 自身 的 mmlist 域 连接 在 一 个 双向 链表 中 ， 该 链表 的 首 元 素 
是 init_ mm 内 存 描述 符 ， 它 代表 init 进程 的 地 址 空间 。 另 外 要 注意 ， 操 作 该 链表 的 时 候 需 要 使 用 
mmlist_ lock 锁 来 防止 并 发 访问 ， 该 锁定 义 在 文件 kernelfork.c 中 。 


15.2.1 分 配 内 存 描 述 符 


在 进程 的 进程 描述 符 〔 在 <linux/sched.h> 中 定义 的 task_struct 结构 体 就 表示 进程 描述 符 》 
中 ，mm 域 存放 着 该 进程 使 用 的 内 存 描述 符 ， 所 以 current-> mm 便 指向 当前 进程 的 内 存 描述 
符 。fork() 国 数 利用 copy_mm() 函数 复制 父 进程 的 内 存 描述 符 ， 也 就 是 current->mm 域 给 其 子 
进程 ， 而 子 进程 中 的 mm_stmct 结构 体 实际 是 通过 文件 kernel/fork.c 中 的 allocate_mm() 宏 从 
mm _cachep slab 缓存 中 分 配 得 到 的 。 通 常 ， 每 个 进程 都 有 唯一 的 mm_struct 结构 体 ， 即 唯一 的 
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进程 地 址 空间 。 
如 果 父 进程 希望 和 其 子 进程 共享 地 址 空间 ， 可 以 在 调用 clone0 时 ， 设 置 CLONE_VM 标志 。 
我 们 把 这 样 的 进程 称 作 线程 。 回 忆 第 3 童 ， 是 否 共享 地 址 空间 几乎 是 进程 和 Linux 中 所 谓 的 线程 
间 本 质 上 的 唯一 区 别 。 除 此 以 外 ，Linux 内 核 并 不 区 别 对 待 它们 ， 线 程 对 内 核 来 说 仅仅 是 一 个 共 
享 特定 资源 的 进程 而 已 。 
当 CLONE_VM 被 指定 后 ， 内 核 就 不 再 需要 调用 allocate_mm() 函数 了 ， 而 仅仅 需要 在 调用 
copy_ mmg 函数 中 将 mm 域 指 癌 其 父 进程 的 内 存 摘 述 符 就 可 以 了 : 
if {clone flags & CLONE _VM) |{ 
: current 是 父 进程 而 tsk 在 fork() 执行 期 间 是 子 进程 
Rd c inct{lgcurrent->mm->mm Users),;} 


tsk-smm= current -smm; 


} 
15.2.2 撤销 内 存 描述 符 


. 当 进 程 退出 时 ， 内 核 会 调用 定义 在 kemelLexit.c 中 的 exit_ mm( 国 数 ， 该 函数 执行 一 些 常 

规 的 撤销 工作 ， 同 时 更 新 一 些 统计 量 。 其 中 ， 该 函数 会 调用 mmput0 函数 减少 内 存 描述 符 中 的 
”mm _users 用 户 计数 , 如 果 用 户 计数 降 到 零 ， 将 调用 mmdrop( 函数 ， 减 少 mm_count 使 用 计数 。 
如 有 果 使 用 计数 也 等 于 去， 说 明 该 内 存 摘 述 符 不 再 有 任何 使 用 者 了 ， 那 么 调用 free_mm0 宏 通 过 
kmem cache free() 函数 将 mm struct 结构 体 归 还 到 mm_ cachep slab 缓存 中 。 


15.2.3 ”mm_struct 与 内 核 线程 


内 核 线程 没有 进程 地 址 空间 ， 也 没有 相关 的 内 存 描述 符 。 所 以 内 核 线程 对 应 的 进程 描述 符 中 
mm 域 为 空 。 事 实 上 ， 这 也 正 是 内 核 线程 的 真实 含义 一 一 它们 没有 用 户 上 下 文 。 

省 了 进程 地 址 空间 再 好 不 过 了 ， 因 为 内 核 线程 并 不 需要 访问 任何 用 户 空间 的 内 存 〈 那 它们 访 
癌 谁 的 呢 ? ) 而 且 因为 内 核 线程 在 用 户 空间 中 设 有 任何 页 ， 所 以 实际 上 它们 并 不 需要 有 自己 的 内 
存 描述 符 和 页 表 (后 面 的 内 容 将 讲述 页 表 )。 尽 管 如 此 ， 即 使 访问 内 核 内 存 ， 内 核 线 程 也 还 是 需 
要 使 用 一 些 数据 的 ， 比 如 页 表 。 为 了 避免 内 核 线 程 为 内 存 措 述 符 和 页 表 浪 费 内 存 ， 也 为 了 当 新 内 
核 线程 运行 时 ， 避 免 浪 费 处 理 器 周期 向 新 地 址 空间 进行 切换 ， 内 核 线程 将 直接 使 用 前 一 个 进程 的 
内 存 描述 符 。 

当 一 个 进程 被 调度 时 ， 读 进程 的 mm 域 指向 的 地 址 空间 被 装载 到 内 存 ， 进 程 描 述 符 中 的 
active_mm 域 会 被 更 新 ， 指 向 新 的 地 址 空间 。 内 核 线程 没有 地 址 空间 ， 所 以 mm 域 为 NULL。 
于 是 ， 当 一 个 内 核 线程 被 调度 时 ， 内 核发 现 它 的 mm 域 为 NULL， 就 会 保留 前 一 个 进程 的 地 址 
空间 ， 随 后 内 核 更 新 内 核 线程 对 应 的 进程 描述 符 中 的 active_mm 域 ， 使 其 指向 前 一 个 进程 的 内 
存 描 述 符 。 所 以 在 需要 时 ， 内 核 线程 便 可 以 使 用 前 一 个 进程 的 页 表 。 因 为 内 核 线程 不 访问 用 户 
空间 的 内 存 ， 所 以 它们 仅仅 使 用 地 址 空间 中 和 内 核 内 存 相 关 的 信息 ， 这 些 信 息 的 含义 和 普通 进 
程 完全 相同 。 
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15.3 虚拟 内 存 区 域 


内 存 区 域 由 vm_area_struct 结构 体 描 述 ， 定 义 在 文件 <linux/mm types.h> 中 。 内 存 区 域 在 
Linux 内 核 中 也 经 常 称 作 虚 拟 内 存 区 域 (virtual memoryAreas, VMAs)。 

vm_area_struct 结构 体 描述 了 指定 地 址 空间 内 连续 区 间 上 的 一 个 独立 内 存 范 围 。 内 核 将 每 个 
内 存 区 域 作 为 一 个 单独 的 内 存 对 象 管理 ， 每 个 内 存 区 域 都 拥有 一 致 的 属性 ， 比 如 访问 权限 等 ， 另 
外 ， 相 应 的 操作 也 都 一 致 。 按 照 这 样 的 方式 ， 每 一 个 VMA 就 可 以 代表 不 同类 型 的 内 存 区 域 〈 比 
如 内 存 映射 文件 或 者 进程 用 户 空间 栈 )， 这 种 管理 方式 类 似 于 使 用 VFS 层 的 面向 对 象 方法 (请 看 
第 13 章 )， 下 面 给 出 该 结构 定 久 和 各 个 域 的 描述 : 


struct vm area struct { 


struct mm struct *vm_ mm; /* 相关 的 mm _struct 结构 体 */ 
unsigned long ym start; /* 区 间 的 首 地 址 */ 
unsigned long vm end; As 区 全 的 尾 地 址 */ 
struct vm area struct *vm next; A*VMA 链表 */ 
pgprot 上 vm_page_prot; /* 访问 控制 权限 */ 
unsigned long vm flags; As 标志 , */ 
struct rb node vm_rb; /* 树 上 该 VMA 的 节点 */ 
union 1 /* 或 者 是 关联 于 address_space->i mmap 字段 ， 或 者 是 关联 于 
address space->i mmap nonlinear 字段 */ 
struct { 

struct list head list; 

Voiqd *parent; 

struct wm area struct *head; 

} vm _ set; 


struct prio tree node prio tree node; 
} shared; 


struct list head anon vma node; A/*anon vma 项 */ 

struct anon vma *anon vma; /匿名 VMR 对 象 */ 

struct vm operations struct *Vym OPB A/* 相关 的 操作 表 */ 

unsigned long vm pgoff; /* 文件 中 的 偏 称 量 */ 

struct file *vm file; A* 被 映射 的 廊 件 (如 果 存 在 》*/ 
VOiQ *vm private data; As 私有 数据 */ 


js 

每 个 内 存 描述 符 都 对 应 于 进程 地 址 空间 中 的 唯一 区 间 。vm_start 域 指向 区 间 的 首 地 址 (最低 
地 址 )，vm_end 域 指 向 区 间 的 尾 地 址 (最 高 地 址 ) 之 后 的 第 一 个 字 节 ， 也 就 是 说 ，vm_start 是 内 
存 区 间 的 开始 地 址 〈 它 本 身 在 区 间 内 ) , 而 vm_end 是 内 存 区 间 的 结束 地 址 ( 它 本 身 在 区 间 外 )， 
因此 , vm_end 一 vm_start 的 大 小 便 是 内 存 区 间 的 长 度 ， 内 存 区 域 的 位 置 就 在 [vm_start, vm_end] 
之 中 。 注 意 ， 在 同一 个 地 址 空间 内 的 不 同 内 存 区 间 不 能 重 和 到。 

vm_mm 域 指向 和 VMA 相关 的 mm_stmct 结构 体 ， 注 意 ， 每 个 VMA 对 其 相关 的 mm_struct 
结构 体 来 说 都 是 唯一 的 ， 所 以 即使 两 个 独立 的 进程 将 同一 个 文件 映射 到 各 自 的 地 址 空间 ， 它 们 分 
别 都 会 有 一 个 vm_area_struct 结构 体 来 标志 自己 的 内 存 区 域 ; 反 过 来 ， 如 果 两 个 线程 共享 一 个 地 
址 空间 ， 那 么 它们 也 同时 共享 其 中 的 所 有 vm_area_struct 结构 体 。 


15.3.1 VMA 标志 
VMA 标志 是 一 种 位 标志 ， 其 定义 见 <linux/mm.h>。 它 包含 在 vm_flags 域内 ， 标 志 了 内 存 区 
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域 所 包含 的 页 面 的 行为 和 信息 。 和 物理 页 的 访问 权限 不 同 ，VMA 标志 反映 了 内 核 处 理 页 面 所 需 
要 遵守 的 行为 准则 ， 而 不 是 硬件 要 求 。 而 且 , vm flags 同时 也 包含 了 内 存 区 域 中 每 个 页 面 的 信息 ， 


或 内 存 区 域 的 整体 信息 ， 而 不 是 具体 的 独立 页 面 。 
表 15-1 VMA 标志 


标 志 
VM_READ 
VM_WRITE 
VM_EXEC 
VM_SHARED 
VM_MAYREAD 
VM_MAYWRITE 
VM_MAYEXEC 
VM_MAYSHARE 
VM_GROWSDOWN 
VM_GROWSUP 
VM_SHM 
VM_DENYWRITE 
VM_EXECUTABLE 
VM LOCKED 

_VM IO 
VM_SEQ READ 
VM_RAND READ 
VM_DONTCOPY 
VM DONTEXPAND 
VM RESERVED 
VM_ ACCOUNT 
VM_HUGETLB 
VM_NONLINEAR 


表 15-1 列 出 了 所 有 VMA 标志 的 可 能 取 值 。 


对 VMA 及 其 页 面 的 影响 
页 面 可 读 取 

页 面 可 写 

页 面 可 执行 

页 面 可 共享 

VM_READ 标志 可 被 设置 
VM_WRITE 标志 可 被 设置 
VM_EXEC 标志 可 被 设置 
VM_SHARE 标志 可 被 设置 
区 域 可 向 下 增长 

区 域 可 向 上 增长 

区 域 可 用 作 共 享 内 存 

区 域 映 射 一 个 不 可 写 文件 
区 域 映 射 一 个 可 执行 文件 
区 域 中 的 页 面 被 锁定 

区 域 映射 设备 IO 空间 

页 面 可 能 会 被 连续 访问 

页 面 可 能 会 被 随机 访问 
区 域 不 能 在 fork() 时 被 拷贝 
区 域 不 能 通过 mremap0 增加 
区 域 不 能 被 换 出 

读 区 域 是 一 个 记 账 VM 对 象 
区 域 使 用 了 hugetlb 页 面 
读 区 域 是 非 线 性 映射 的 


让 我 们 进一步 看 看 其 中 有 趣 和 重要 的 几 种 标志 ，VM_READ、VM_WRITE 和 VM_ EXEC 标 
志 了 内 存 区 域 中 页 面 的 读 、 写 和 执行 权限 。 这 些 标志 根据 要 求 组 合 构成 VMA 的 访问 控制 权限 ， 
当 访 问 VMA 时 ， 需 要 查看 其 访问 权限 。 比 如 进程 的 对 象 代 码 映射 区 域 可 能 会 标志 为 VM_READ 
和 VM_EXEC, 而 没有 标志 为 VYM_ WRITE ; 另 一 方面 ， 可 执行 对 象 数 据 段 的 映射 区 域 标志 为 


VM READ 和 VM _ WRITE, 


而 YM_EXEC 标志 对 它 就 毫 无 意义 。 也 就 是 说 ， 只 读 文件 数据 段 的 
映射 区 域 仅 可 被 标志 为 VM_READ。 


VM_SHARD 指明 了 内 存 区 域 包含 的 映射 是 否 可 以 在 多 进程 间 共 享 , 如 果 该 标志 被 设置 ， 则 我 们 称 
其 为 共享 映射 ; 如 果 未 被 设置 ， 而 仅仅 只 有 一 个 进程 可 以 使 用 该 映射 的 内 容 ， 我 们 称 它 为 私有 映射 。 
VM_IO 标志 内 存 区 域 中 包含 对 设备 IO 空间 的 映射 。 该 标志 通 前 在 设备 虹 动 程序 执行 


进程 地 在 空间 


mmap() 函数 进行 VO 空间 映射 时 才 被 设置 ， 同 时 该 标志 也 表示 该 内 存 区 域 不 能 被 包含 在 任何 进 
程 的 存放 转 存 (core dump) 中 。VM_RESERVED 标志 规定 了 内 存 区 域 不 能 被 换 出 ， 它 也 是 在 设 
备 驱 动 程序 进行 映射 时 被 设置 。 

VM_SEQ_READ 标志 暗示 内 核 应 用 程序 对 映射 内 容 执行 有 序 的 〈 线 性 和 连续 的 ) 读 操 作 ; 
这 样 ， 内 核 可 以 有 选择 地 执行 预 读 文 件 。VM_RAND READ 标志 的 意义 正好 相反 ， 暗 示 应 用 程 
序 对 映射 内 容 执 行 随机 的 ( 非 有 序 的 ) 读 操作 。 因 此 内 核 可 以 有 选择 地 减少 或 彻底 取消 文件 预 
读 ， 所 以 这 两 个 标志 可 以 通过 系统 调用 madvise() 设置 ， 设 置 参数 分 别 是 MADV_SEQUENTIAL 
和 MADV_RANDOM。 文件 预 读 是 指 在 读数 据 时 有 意 地 按 顺 序 多 读 取 一 些 本 次 请 求 以 外 的 数 
据 一 一 希望 多 读 的 数据 能 够 很 快 就 被 用 到 。 这 种 预 读 行 为 对 那些 顺序 读 取 数 据 的 应 用 程序 有 很 大 
的 好 处 ， 但 是 如 果 数 据 的 访问 是 随机 的 ， 那 么 预 读 显然 就 多 余 了 。 


15.3.2 VMA 操作 


vm_area_struct 结构 体 中 的 vm_ops 域 指向 与 指定 内 存 区 域 相关 的 操作 函数 表 ， 内 核 使 用 表 
中 的 方法 操作 VMA。vm_area_struct 作为 通用 对 象 代表 了 任何 类 型 的 内 存 区 域 ， 而 操作 表 描 述 针 
对 特定 的 对 象 实例 的 特定 方法 。 

操作 函数 表 由 vm_operations_struct 结构 体 表 示 ， 定 义 在 文件 <linux/mm.h> 中 : 


struct vm operations struct | 
void (*open) tstruct vm area struct *)} 
void (*close) (struct vm area struct *),， 
int (*fault}) (struct vm area struct *, struct vm fault *); 
int (*page mkwrite) (struct vm area struct *vma, struct vm fault *wywmf); 
int (*access) (struct vm area struct *, unsigned long ， 
void *, int, int),; 


}; 

下 面 介绍 具体 方法 : 

*void open{struct vm area struct *area) 

当 指 定 的 内 存 区 域 被 加 入 到 一 个 地 址 空间 时 ， 读 函数 被 调用 。 

*void close{struct vm area struct *area) 

当 指 定 的 内 存 区 域 从 地 址 空间 删除 时 ， 读 函数 被 调用 。 

*int fault {struct vm area sruct *area, struct vm fault *vmf) 

当 设 有 出 现在 物理 内 存 中 的 页 面 被 访问 时 ， 该 函数 被 页 面 故障 处 理 调用 。 
*int page mkwrite(lstruct vm area sruct *area struct vm fault *vmf) 
当 某 个 页 面 为 只 读 页 面 时 ， 该 函数 被 页 面 故 障 处 理 调用 。 


*int access (struct vm area struct *vma, unsigned long address, void 
*buf, int len, int write) 


当 get_user_pages() 函数 调用 失败 时 ， 该 函数 被 access_process_vm( 函数 调用 。 
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15.3.3 ”内 存 区 域 的 树 型 结构 和 内 存 区 域 的 链表 结构 


上 文 讨 论 过 ， 可 以 通过 内 存 描述 符 中 的 mmap 和 mm mb 域 之 一 访问 内 存 区 域 。 这 两 个 域 
各 自 独立 地 指向 与 内 存 描述 符 相 关 的 全 体内 存 区 域 对 象 。 其 实 ， 它 们 包含 完全 相同 的 vm_area_ 
struct 结构 体 的 指针 ， 仅 仅 组 织 方法 不 同 。 

mmap 域 使 用 单独 链表 连接 所 有 的 内 存 区 域 对 象 。 每 一 个 vm_area_struct 结构 体 通 过 自身 的 
vm_next 域 被 连 人 人 链表， 所 有 的 区 域 按 地 址 增长 的 方向 排序 ，mmap 域 指向 链表 中 第 一 个 内 存 区 
域 ， 链 中 最 后 一 个 结构 体 指 针 指 向 空 。 

mm tb 域 使 用 红 一 黑 树 连接 所 有 的 内 存 区 域 对 象 。mm _rb 域 指向 红 一 黑 树 的 根 节 点 ， 地 址 
空间 中 每 一 个 vm_area_struct 结构 体 通过 自身 的 vm_ 中 域 连接 到 树 中 。 

红 一 法 树 是 一 种 二 又 树 ， 树 中 的 每 一 个 元 素 称 为 一 个 节点 ， 节 初 的 节点 称 为 树 根 。 红 一 黑 树 
的 多 数 节 点 都 由 两 个 子 节点 : 一 个 左 子 节点 和 一 个 右 子 节点 ， 不 过 也 有 节点 只 有 一 个 子 节点 的 情 
况 。 树 末端 的 节点 称 为 叶子 节点 ， 它 们 没有 子 节 点 。 红 一 黑 树 中 的 所 有 节点 都 遵从 : 左边 节点 值 
小 于 右边 节点 值 ; 另外 每 个 节点 都 被 配 以 红色 或 黑色 〈 要 么 红 要 人 么 黑 ， 所 以 叫做 红 一 黑 树 )。 分 配 
的 规则 为 : 红 节点 的 子 节点 为 黑色 ， 并 且 树 中 的 任何 一 条 从 节点 到 叶子 的 路 径 必 须 包 含 同 样 数目 
的 黑色 节点 。 记 住 根 节 点 总 为 红色 。 红 -- 黑 树 的 搜索 、 揪 入 、 删 除 等 操作 的 复杂 度 都 为 O(log(n))。 

链表 用 于 需要 遍历 全 部 节点 的 时 候 ， 而 红 一 黑 树 适用 于 在 地 址 空间 中 定位 特定 内 存 区 域 的 
时 候 。 内 核 为 了 内 存 区域 上 的 各 种 不 同 操作 都 能 获得 高 性 能 ， 所 以 同时 使 用 了 这 两 种 数据 结构 。 


15.3.4 ”实际 使 用 中 的 内 存 区 域 
可 以 使 用 /proc 文件 系统 和 pmap (1) 工具 查看 给 定 进程 的 内 存 空 间 和 其 中 所 含 的 内 存 区 域 。 
我 们 来 看 一 个 非常 简单 的 用 户 空间 程序 的 例子 ， 它 其 实 什 么 也 不 做 ， 仅 仅 是 为 了 做 说 明 : 


int maln 1 int argc,char *argv[]) 


{ 
} 


下 面 列 出 该 进程 地 址 空间 中 包含 的 内 存 区 域 。 其 中 有 代码 段 、 数 据 段 和 bss 段 等 。 假 设 该 进 
程 与 C 库 动态 连接 ， 那 么 地 址 空间 中 还 将 分 别 包 含 libc.so 和 ld.so 对 应 的 上 述 三 种 内 存 区 域 。 此 
外 ， 地 址 空间 中 还 要 包含 进程 栈 对 应 的 内 存 区 域 。 

/proc/<pid>/maps 的 输出 显示 了 该 进程 地 址 空间 中 的 全 部 内 存 区 域 : 


return 0; 


rlove@wolf:~$ cat /proc/l1426/maps 
O00e80000-00faf000 r-xp 00000000 03:01 208530 
O00faf0o0-00fb2000 rw-p 0012f000 03:01 208530 
00fb2000-00fb4000 rw-p 00000000 00:00 0 
08048000-080493000 r-xp 00000000 03:03 #439029 
08049000-0804a000 IWw-p 00000000 03:03 #439029 
40000000-40015000 r-xp 00000000 03:01 80276 
a40015000-40016000 rw-p 00015000 03:01 80276 
A4001e000=4001£f000 rw=-p 00000000 00:00 0 
bfffe000-c0000000 rwxp fffff000 00:00 0 


/lib/tls/libc-2.5.1.s0 
lib/tls/libc-2.5.1.s90 


/home/rlove/src/example 
/home/rlove/src/example 
/lib/ld-2.5.1.80 
:lib/ld-2.5.1.86 
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每 行 数据 格式 如 下 : 
开始 一 结束 访问 权限 “ 偏 移 “ 主 设备 号 : 次 设备 号 i 节点 ”文件 
pmap (1) 工具 镶 将 上 述 信息 以 更 方便 阅读 的 形式 输出 : 


rlove®Bwolf:~$ pmap 1426 
example [ld426] 


DO0eB80000 (1212KB} r-xp {03:01 208530) /lib/tls/libe-2.5.1.80 
O00fafo00 (12KB) rwW-P {03:01 208530) /lib/tls/libc-2.5.1.80 
OO0fbz000 (8EB) IW-p {00:000}) 

08048000 (4KEB) r-xp {03:03 439029) /home/rlove/src/example 
08049000 (4KB) rw-p {03:03 439029) /home/rlove/src/example 
40000000 (BA4KB) r-xp {03:01 80276) /lib/ld-2.5.1.80 
40015000 (4FB) rw-p {03:01 80276) /lib/l]d-2.5.1.80 
4001e000 (4KB) rw-p {00:00 0) 

bfffeo0n (BEB) rwxp {00:00 0) [astack] 

mapped :1340FB writable/private : 40FKE shared ;0KB 


前 三 行 分 别 对 应 C 库 中 lic.so 的 代码 段 、 数 据 段 和 bss 段 ， 接 下 来 的 两 个 行为 可 执行 对 象 的 
代码 段 和 数据 段 ， 再 下 来 三 个 行为 动态 连接 程序 ld.so 的 代码 段 、 数 据 段 和 bss 段 ， 最 后 一 行 是 
进程 的 栈 。 

注意 ， 代 码 段 具有 我 们 所 要 求 的 可 读 且 可 执行 权限 ; 另 一 方面 ， 数 据 段 和 bss (它们 都 包含 
全 局 数据 变量 ) 具有 可 读 、 可 写 但 不 可 执行 权限 。 而 堆栈 则 可 读 、 可 写 ， 甚 至 还 可 执行 一 一 虽然 
这 乓 并 不 第 用 到 。 

该 进程 的 全 部 地 址 空间 大 约 为 1340KB, 但 是 只 有 大 约 40KB 的 内 存 区 域 是 可 写 和 私有 的 。 如 果 
一 片 内 存 范围 是 共享 的 或 不 可 写 的 ， 那 么 内 核 只 需要 在 内 存 中 为 文件 (backing fle) 保留 一 份 映射 。 
对 于 共享 映射 来 说 ， 这 样 做 宙 什 么 特别 的 ， 和 但 是 对 于 不 可 写 内 存 区 域 也 这 样 做 ， 就 有 些 让 人 奇怪 了 ，。 
如 果 著 虑 到 映射 区 域 不 可 写意 味 着 该 区 域 不 可 被 改变 〈 上 映射 只 用 来 读 )， 就 应 该 清楚 只 把 该 映像 读 人 
一 次 是 很 安全 的 。 所 以 C 库 在 物理 内 存 中 仅仅 需要 占用 1212KB 空间 ， 而 不 需要 为 每 个 使 用 C 库 的 
进程 在 内 存 中 都 保存 一 个 1212KB 的 空间 。 进 程 访 问 了 1340KB 的 数据 和 代码 空间 ， 然 而 仅仅 消耗 了 
40KB 的 物理 内 存 ， 可 以 看 出 利用 这 种 共享 不 可 写 内 存 的 方法 节约 了 大 量 的 内 存 空 间 。 

注意 没有 映射 文件 的 内 存 区 域 的 设备 标志 为 00 : 00， 索 引 接 点 标志 也 为 0， 这 个 区 域 就 是 零 
页 一 一 等 页 映射 和 的 内 容 全 为 零 。 如 果 将 零 页 映射 到 可 写 的 内 存 区 域 ， 那 么 该 区 域 将 全 由 初 始 化 为 0。 
这 是 零 页 的 一 个 重要 用 处 ， 而 bss 段 需 要 的 就 是 全 0 的 内 存 区 域 。 由 于 内 存 未 被 共享 ， 所 [以 只 要 一 有 
进程 写 读 处 数据 ， 那 么 读 处 数据 就 将 被 措 风 出 来 (就 是 我 们 所 说 的 写 时 挡 贝 )， 然 后 才 被 更 新 。 

每 个 和 进程 相关 的 内 存 区 域 都 对 应 于 一 个 vm_area_struct 结构 体 。 另 外 进程 不 同 于 线程 ， 进 
程 结 构 体 stask struct 包含 唯一 的 mm _struct 结构 体 引 用 。 


15.4 操作 内 存 区 域 
内 核 时 常 需要 在 某 个 内 存 区 域 上 执行 一 些 操作 ， 比 如 某 个 指定 地 址 是 否 包含 在 某 个 内 存 区 域 


蝗 ”pmap(1) 工具 将 进程 的 内 存 区 域 格式 化 后 显示 ， 虽 然 结 果 中 的 信息 和 /proc 中 的 是 一 样 的 信息 ， 但 它 的 输出 形 
式 比 jproc 的 输出 形式 更 具 可 读 性 。 在 新 版 本 的 procps 包 中 可 以 找到 这 个 工具 。 
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中 。 这 类 操作 非常 频繁 ， 另 外 它们 也 是 mmap() 例 程 的 基础 一 一 我 们 在 15.5 节 会 讨论 mmap0 操 
作 。 为 了 方便 执行 这 类 对 内 存 区 域 的 操作 ， 内 核定 义 了 许多 的 辅助 函数 。 
它们 都 声明 在 文件 <linux/mm.h> 中 。 


15.4.1 find_ vmal() 


为 了 找到 一 个 给 定 的 内 存 地 址 属于 哪 一 个 内 存 区 域 ， 内 核 提 供 了 find_vma() 函数 。 该 函数 定 
义 在 文件 <mm/mmap.c> 中 ; 


struct vm area struct * find vmalstruct mm struct *mm, unsigned long addr); 


读 函 数 在 指定 的 地 址 空间 中 搜索 第 一 个 vm_end 大 于 addr 的 内 存 区 域 。 换 名 话说 ， 读 国 数 
寻找 第 一 个 包含 addr 或 首 地 址 大 于 addr 的 内 存 区 域 ， 如 果 没 有 发 现 这 样 的 区 域 ， 读 函数 返回 
NULL ; 否则 返回 指向 匹配 的 内 存 区 域 的 vm_area_struct 结构 体 指针 。 注 意 ， 由 于 返回 的 VMA 
首 地 址 可 能 大 于 addr， 所 以 指定 的 地 址 并 不 一 定 就 包含 在 返回 的 VMA 中 。 因 为 很 有 可 能 在 对 某 
个 VMA 执行 操作 后 ， 还 有 其 他 更 多 的 操作 会 对 该 VMA 接着 进行 操作 ， 所 以 find_vma0 函数 返 
回 的 结果 被 缓存 在 内 存 描述 符 的 mmap_cache 域 中 。 实 践 证 明 ， 被 缓存 的 VMA 会 有 相当 好 的 命 
中 率 ( 实践 中 大 约 30% 一 40%)， 而 且 检 查 被 缓存 的 VMA 速度 会 很 快 ， 如 果 指 定 的 地 址 不 在 组 
存 中 ， 那 么 必须 搜索 和 内 存 描述 符 相 关 的 所 有 内 存 区 域 。 这 种 搜索 通过 红 一 黑 树 进行 : 


struct vm area struct * find vmalstruct mm struct *mm, unsigned long addr) 


[ 


struct vm area Btruct *yma = NULL， 


if (mm) { 
Vma = mm->mmap cache; 
if (1(vma && vma->vm end > addr && vma->vm start <= addr})) | 
satruct rb node *rb node; 


rb node = mm->mm rb.rb node; 
vma = NULL:; 
while (rb node) { 
struct vm area struct * wma tmp; 


vmna tmp = rb entry (rb node, 
struct vm area struct, vm rb); 
if (vma tmp->vm end > addr) { 
Vma = Vma tmp; 
if (vma tmp->vm start <= addr) 
break:; 
rb node = rb node->rb left,; 
} else 
rb node = rb node->rb right; 
| 
if (vma) 
mn- >mmap cache = vma; 
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} 


return vma; 


} 


首先 ， 读 函数 检查 mmap_cache， 看 看 缓存 的 VMA 是 否 包 含 了 所 需 地 址 。 注 意 简单 地 检查 
VMA 的 vm_end 是 否 大 于 addr， 并 不 能 保证 该 VMA 是 第 一 个 大 于 addr 的 内 存 区 域 ， 所 以 缓存 
要 想 发 挥 作用 ， 就 要 求 指定 的 地 址 必须 包含 在 被 缓存 的 VMA 中 一 一 幸好 ， 这 也 正 是 连续 操作 同 
一 VMA 必然 发 生 的 情况 。 

如 果 缓 存 中 并 未 包含 希望 的 VMA， 那 么 该 函数 必须 搜索 红 一 黑 树 。 如 果 当 前 VMA 的 vm_ 
end 大 于 addr， 进 入 左 子 节点 继续 搜索 ; 否则 ， 沿 右边 子 节点 搜索 ， 直 到 找到 包含 addr 的 VMA 
为 止 。 如 果 没 有 包含 addr 的 VMA 被 找到 ， 那 么 该 函数 继续 搜索 树 ， 并 且 返 回 大 于 addr 的 第 一 
小 VMA。 如 果 也 不 存在 满足 要 求 的 VMA， 那 该 函数 返回 NULL。 


15.4.2 find vma prev() 


find_vma_prev() 函数 和 find_vma() 工作 方式 相同 ， 但 是 它 返 回 第 一 个 小 于 addr 的 VMA。 访 
函数 定义 和 声明 分 别 在 文件 mm/mmap.c 中 和 文件 <linux/mm.h> 中 : 


Struct vm area struct * find vma prevlstruct mm struct *mm,unsigned long addr ， 
struct vm area struct **pprev) 


pprev 参数 存放 指向 先 于 addr 的 VMA 指针 。 
15.4.3 find vma intersection() 


find_vma _intersection() 函数 返回 第 一 个 和 指定 地 址 区 间 相 交 的 VMA。 因 为 该 函数 是 内 联 函 
数 ， 所 以 定义 在 文件 <linux/mm.h> 中 : 


static inline struct vm area struct 二 

find wma intersectionlstruct mm struct *mm, 
unsigned long start addr, 
unsigned long end addr) 


atruct vm area struct *vma; 


vma = find wmai{mm, start addr); 

it (ma && end addr <= Vvma->Vvm start) 
vna = NULL:; 

return vma; 


| 


第 一 个 参数 mm 是 要 搜索 的 地 址 空间 ，start addr 是 区 间 的 开始 首位 置 ，end addr 是 区 间 的 
尾 位 置 。 

显然 ， 如 果 find_vma0 返回 NULL， 那 么 find_vma _interesection0 也 会 返回 NULL。 但 是 如 
果 find vma0 返回 有 效 的 VMA，find vma intersection0 只 有 在 该 VMA 的 起 始 位 置 于 给 定 的 地 
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址 区 间 结 束 位 置 之 前 ， 才 将 其 返回 。 如 果 VMA 的 起 始 位 置 大 于 指定 地 址 范围 的 结束 位 置 ， 则 该 
函数 返回 NULL 。 


15.5 mmap() 和 do_mmap() : 创建 地 址 区 间 


内 核 使 用 do_mmap() 函数 创建 一 个 新 的 线性 地 址 区 则 。 但 是 说 该 函数 创建 了 一 个 新 VMA 
并 不 非常 准确 ， 因 为 如 果 创 建 的 地 址 区 间 和 一 个 已 经 存在 的 地 址 区 间 相 邻 ， 并 且 它 们 具有 相同 的 
访问 权限 的 话 ， 两 个 区 则 将 合并 为 一 个 。 如 采 不 能 合并 ， 就 确实 需要 创建 一 个 新 的 VMA 了 。 但 
无 论 哪 种 情况 ，do_mmap() 函数 都 会 将 一 个 地 址 区 间 加 入 到 进程 的 地 址 空间 中 一 一 无 论 是 扩展 已 
存在 的 内 存 区 域 还 是 创建 一 个 新 的 区 域 。 ' 
do _mmap() 函数 定义 在 文件 <linux/mm.h> 中 。 


unsigned long do mmaplstruct file *file, unsigned long addr, 
unsigned long len, unsigned long prot, 
unsigned long flag, unsigned long offset) 


该 函数 映射 由 file 指定 的 文件 ， 具 体 映 射 的 是 文件 中 从 偏 移 offset 处 开始 ， 长 度 为 len 字 节 
的 范围 内 的 数据 。 如 果 file 参数 是 NULL 并 且 offset 参数 也 是 0， 那 么 就 代表 这 次 上 映射 没有 和 文 
件 相 关 ， 该 情况 称 作 匿名 映射 〈anonymous mapping )。 如 果 指 定 了 文件 名 和 偏 移 量 ， 那 么 该 映射 
称 为 文件 映射 (file-backed mapping)。 

addr 是 可 选 参数 ， 它 指定 搜索 空闲 区 域 的 起 始 位 置 。 

prot 参数 指定 内 存 区 域 中 页 面 的 访问 权限 。 访 问 权限 标志 定义 在 文件 <asm/mman.h> 中 ， 不 
同体 系 结构 标志 的 定义 有 所 不 同 ， 但 是 对 所 有 体系 结构 而 言 ， 都 会 包含 表 15-2 中 所 列举 的 标志 。 


表 15-2 页 保护 标志 


标 志 对 新 建 区 间 中 页 的 要 求 
PROT_READ ] 对 应 于 VM_READ 
PROT_WRITE 对 应 于 VM_WRITE 
PROT EXEC | 对 应 于 VM_EXEC 
PROT_NONE | 页 不 可 被 访问 


flag 参数 指定 了 VMA 标志 ， 这 些 标志 指定 类 型 并 改变 映射 的 行为 。 它 们 也 在 文件 <asmv 
mman.h> 中 定义 ， 请 参看 表 15-3。 


表 15-3 页 保护 标志 


标 ” 志 对 新 区 间 的 要 求 
MAP SHARED 映射 可 以 害 共 享 
MAP PRIVATE 映射 不 能 被 共享 
MAP FIXED 新 区 间 必 须 开 始 于 指定 的 地 址 addr 
MAP _ ANONYMOUS | 映射 不 是 file-backed， 而 是 匿名 的 
MAP GROWSDOWN .| 对 应 于 VM_GROWSDOWN 


MAP DENYWRITE | 对 应 于 VM_DENYWRITE 


进 枉 她 在 空 介 


( 续 ) 
标 志 对 新 区 间 的 要 求 
MAP EXECUTABLE 对 应 于 VM_EXECUTABLE 
MAP LOCKED 对 应 于 VM_LOCKED 
MAP NORESERVE 不 需要 为 映射 保留 空间 
MAP POPULATE 填充 页 表 
MAP NONBLOCK 在 LO 操作 上 不 堵塞 


如 果 系 统 调用 do_mmap0 的 参数 中 有 无 效 参数 ， 那 么 它 返回 一 个 负 值 ; 否则 ， 它 会 在 虚拟 
内 存 中 分 配 一 个 合适 的 新 内 存 区 域 。 如 果 有 可 能 的 话 ， 将 新 区 域 和 邻近 区 域 进行 合并 ， 否 则 内 核 
从 vm area cachep 长 字 节 (slab) 缓存 中 分 配 一 个 vm area _ struct 结构 体 ， 并 且 使 用 vma linkO 
销 数 将 新 分 配 的 内 存 区 域 添 加 到 地 址 空间 的 内 存 区 域 链表 和 红 一 黑 树 中 ， 随 后 还 要 更 新 内 存 描 述 
符 中 的 total_vm 域 ， 然 后 才 返 回 新 分 配 的 地 址 区 间 的 初始 地 址 。 

在 用 户 空 间 可 以 通过 mmap0 系统 调用 获取 内 核 函 数 do_mmap() 的 功能 。mmap() 系统 调用 
定义 如 下 : 


void * mmap2 (void *start, 
size t length, 
int prot, 
int flags, 
int fd, 
off t pgoff) 


由 于 该 系统 调用 是 mmap0 调用 的 第 二 种 变种 ， 所 以 起 名 为 mmap20。 革 原始 的 mmap() 
调用 中 最 后 一 个 参数 是 字 布 偏 移 量 ， 而 目前 这 个 mmap20 使 用 页 面 偏 移 作 最 后 一 个 参数 。 使 
用 页 面 偏 移 量 可 以 映射 更 大 的 文件 和 更 大 的 偏 移 位 置 。 原 始 的 mmap() 调用 由 POSIX 定义 ， 
仍然 在 C 库 中 作为 mmap() 方法 使 用 ， 但 是 内 核 中 已 经 没有 对 应 的 实现 了 ， 而 实现 的 是 新 方 
法 mmap20。 虽 然 C 库 仍然 可 以 使 用 原始 版 本 的 映射 方法 ， 但 是 它 其 实 还 是 基于 函数 mmap20 
进行 的 ， 因 为 对 原始 mmap( 方法 的 调用 是 通过 将 字 市 偏 移 转化 为 页 面 偏 称 , 从 而 转化 为 对 
mmap2() 函数 的 调用 来 实现 的 。 


15.6 ”mummap() 和 do_mummap() : 删除 地 址 区 间 
do_mummap( 函数 从 特定 的 进程 地 址 空间 中 删除 指定 地 址 区 间 ， 读 函数 定义 在 文件 <linux/ 


mm.h> 中 : 


int do mummaplstruct mm struct *mm,unsigned long start, size t len) 


第 一 个 参数 指定 要 删除 区 域 所 在 的 地 址 空间 ， 删 除 从 地 址 start 开始 ， 长 度 为 len 字 节 的 地 址 
区 间 。 如 果 成 功 ， 返 回 零 。 否 则 ， 返 回 负 的 错误 码 。 

系统 调用 munmap() 给 用 户 空 间 程序 提供 了 一 种 从 自身 地 址 空间 中 删除 指定 地 址 区 间 的 方 
法 ， 它 和 系统 调用 mmap() 的 作用 相反 : 
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int mnmap (void *start, size 七 length) 
该 系统 调用 定义 在 文件 mm/mmap.c 中 ， 它 是 对 do_mummap() 函数 的 一 个 简单 的 封装 : 


asmlinkage long sys_ munmaplunsigned long addr, size 七 len) 


int ret; 
striict mm struct *mm; 


mm = CUrrent -smm; 

down write(&mm->mmap Sem); 

ret = do munmap (mm, addr, len); 
up write(g&mm- >mmap Sem); 

return ret; 


15.7 页 表 


虽然 应 用 程序 操作 的 对 象 是 映射 到 物理 内 存 之 上 的 虚拟 内 存 ， 但 是 处 理 器 直接 操作 的 却 是 物 
理 内 存 。 所 以 当 用 程序 访问 一 个 虚拟 地 址 时 ， 首 先 必 须 将 虚拟 地 址 转化 成 物理 地 址 ， 然 后 处 理 器 
才能 解析 地 址 访问 请 求 。 地 址 的 转换 工作 需要 通过 查询 页 表 才 能 完成 ， 概 括 地 讲 ， 地 址 转换 需要 
将 虚拟 地 址 分 段 ， 使 每 段 虚 拟 地 址 都 作为 一 个 索引 指向 页 表 ， 而 页 表 项 则 指向 下 一 级 别 的 页 表 或 
者 指向 最 终 的 物理 页 面 。 

Linux 中 使 用 三 级 页 表 完 成 地 址 转换 。 利 用 多 级 页 表 能 够 节约 地 址 转换 需 占 用 的 存放 空间 。 
如 采 利 用 三 级 页 表 转 换 地 址 ， 即 使 是 64 位 机 器 ， 占 用 的 空间 也 很 有 限 。 但 是 如 果 使 用 静态 数 
组 实现 页 表 ， 那 么 即便 在 32 位 机 器 上 ， 该 数组 也 将 占用 巨大 的 存放 空间 。Linux 对 所 有 体系 结 
构 ， 包 括 对 那些 不 支持 三 级 页 表 的 体系 结构 〈 比 如 ， 有 些 体系 结构 只 使 用 两 级 页 表 或 者 使 用 散 
列表 完成 地 址 转换 ) 都 使 用 三 级 页 表 管 理 ， 因 为 使 用 三 级 页 表 结 构 可 以 利用 “最 大 公约 数 ” 的 
思想 一 一 一 种 设计 简单 的 体系 结构 ， 可 以 按照 需要 在 编译 时 简化 使 用 页 表 的 三 级 结构 ， 比 如 只 
使 用 两 级 。 

顶级 页 表 是 页 全 局 目录 (PGD)， 它 包含 了 一 个 pgd_t 类 型 数组 ， 多 数 体系 结构 中 pgd_t 类 
型 等 同 于 无 符号 长 整 型 类 型 。 PGD 中 的 表 项 指向 二 级 页 目录 中 的 表 项 : PMD。 

二 级 页 表 是 中 间 页 目录 PMD)， 它 是 个 pmd t 类 型 数组 ， 其 中 的 表 项 指向 PTE 中 的 表 项 。 

最 后 一 级 的 页 表 简 称 页 表 ， 其 中 包含 了 pte_t 类 型 的 页 表 项 ， 读 页 表 项 指向 物理 页 面 。 

多 数 体 系 结构 中 ， 搜 索 页 表 的 工作 是 由 硬件 完成 的 (至 少 某 种 程度 上 )。 虽 然 通 常 操作 中 ， 
很 多 使 用 页 表 的 工作 都 可 以 由 硬件 执行 ， 但 是 只 有 在 内 核 正确 设置 页 表 的 前 提 下 ， 硬 件 才 能 方便 
地 操作 它们 。 图 15-1 描述 了 虚拟 地 址 通过 页 表 找到 物理 地 址 的 过 程 。 

每 个 进程 都 有 自己 的 页 表 当然， 线程 会 共享 页 表 )。 内 存 描述 符 的 pgd 域 指向 的 就 是 进程 
的 页 全 局 目录 。 注 意 ， 操 作 和 检索 页 表 时 必须 使 用 page_table_lock 锁 ， 该 锁 在 相应 的 进程 的 内 
存 描述 符 中 ， 以 防止 竞争 条 件 。 

页 表 对 应 的 结构 体 依 赖 于 具体 的 体系 结构 ， 所 以 定义 在 文件 <asm/page.h> 中 。 
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图 15-1 虚拟 一 物理 地 址 查询 


由 于 几乎 每 次 对 虚拟 内 存 中 的 页 面 访问 都 必须 先 解析 它 ， 从 而 得 到 物理 内 存 中 的 对 应 地 址 ， 
所 以 页 表 操 作 的 性 能 非常 关键 。 但 不 六 的 是 ， 搜 索 内 存 中 的 物理 地 址 速度 很 有 限 ， 因 此 为 了 加 
快 搜 索 ， 多 数 体系 结构 都 实现 了 一 个 翻译 后 缓冲 器 (translate lookaside buffer，TLB)。TLB 作为 
一 个 将 虚拟 地 址 映射 到 物理 地 址 的 硬件 缓存 ， 当 请 求 访问 一 个 虚拟 地 址 时 ， 处 理 器 将 首先 检查 
TLB 中 是 否 缓存 了 该 虚拟 地 址 到 物理 地 址 的 映射 ， 如 果 在 缓存 中 直接 命中 ， 物 理 地 址 立刻 返回 ; 
否则 ， 就 需要 再 通过 页 表 搜 索 需 要 的 物理 地 址 。 

虽然 硬件 完成 了 有 关 页 表 的 部 分 工作 ， 但 是 页 表 的 管理 仍然 是 内 核 的 关键 部 分 一 一 而 且 在 
不 断 改 进 。2.6 版 内 核对 页 表 管 理 的 主要 改进 是 : 从 高 端 内 存 分 配 部 分 页 表 。 今 后 可 能 的 改进 包 
括 通 过 在 写 时 拷 风 (copy-on-write) 的 方式 共享 页 表 。 这 种 机 制 使 得 在 fork( 操作 中 可 由 父子 进 
程 共享 页 表 。 因 为 只 有 当 子 进程 或 父 进程 试图 修改 特定 页 表 项 时 ， 内 核 才 去 创建 该 页 表 项 的 新 持 
贝 ， 此 后 父子 进程 才 不 再 共享 该 页 表 项 。 可 以 看 到 ， 利 用 共享 页 表 可 以 消除 fork0 操作 中 页 表 找 
贝 所 带 来 的 消耗 。 


15.8 小结 


这 章 的 内 容 不 能 不 说 是 很 “ 难 缠 ” 啦 。 其 中 ， 我 们 看 到 了 抽象 出 来 的 进程 虚拟 内 存 ， 看 到 
了 内 核 如 何 表 示 进 程 空间 (通过 mm_stmect) 以 及 内 核 如 何 表示 该 空间 中 的 内 存 区 域 〈 通 过 结 
构 体 vm_area_struct)。 除 此 以 外 ， 我 们 还 了 解 了 内 核 如 何 创 建 〈 通 过 mmapO) 和 撤销 (通过 
munmap())〉 这 些 内 存 区 域 ， 最 后 还 讨论 了 页 表 。 因 为 Linux 是 一 个 基于 虚拟 内 存 的 操作 系统 ， 所 
以 这 些 概念 对 于 系统 运行 来 说 都 是 非常 基础 的 ， 一 定 要 仔细 领会 。 

第 16 章 ， 我 们 要 讨论 页 缓存 一 一 一 种 用 于 所 有 页 IO 操作 的 内 存 数据 缓存 ， 而 且 还 要 涵盖 
内 核 执 行 基于 页 的 数据 回 写 。 


第 车 
速 组 三 和 页 回 写 


页 高 速 缓存 (cache) 是 Linux 内 核实 现 磁盘 缓存 。 它 主要 用 来 减少 对 磁盘 的 IO 操作 。 具 
体 地 讲 ， 是 通过 把 磁盘 中 的 数据 缓存 到 物理 内 存 中 ， 把 对 磁盘 的 访问 变 为 对 物理 内 存 的 访问 。 这 
一 章 将 讨论 页 高 速 缓存 与 页 回 写 〈 将 页 高 速 缓存 中 的 变更 数据 刷新 回 磁盘 的 操作 )。 

磁盘 高 速 缓 存 之 所 以 在 任何 现代 操作 系统 中 尤为 重要 源 目 两 个 因素 : 第 一 ， 访 问 磁盘 的 速度 
要 远 远 低 于 ( 差 好 几 个 数量 级 ) 访问 内 存 的 速度 一 一 ms 和 ns 的 差距 ， 因 此 ， 从 内 存 访问 数据 比 
从 磁盘 访问 速度 更 快 ， 若 从 处 理 器 的 Ll 和 LL2 高 速 缓 存 访问 则 更 快 。 第 二 , 数据 一 旦 被 访问 ， 就 
很 有 可 能 在 短期 内 再 次 被 访问 到 。 这 种 在 短 时 期 内 集中 访问 同一 片 数据 的 原理 称 作 临 时 局 部 原理 
(temporal locality )。 临 时 局 部 原理 能 保证 : 如 果 在 第 一 次 访问 数据 时 缓存 它 ， 那 就 极 有 可 能 在 短 
期 内 再 次 被 高 速 缓存 命中 访问 到 高 速 缓存 中 的 数据 )。 正 是 由 于 内 存 访问 要 比 磁 盘 访问 快 得 多 ， 
再 加 上 数据 一 次 被 访问 后 更 可 能 再 次 被 访问 的 特点 ， 所 以 磁盘 的 内 存 缓存 将 给 系统 存储 性 能 带 来 
质 的 飞跃 。 


16.1 缓存 手段 


页 高 速 缓存 是 由 内 存 中 的 物理 页 面 组 成 的 ， 其 内 容 对 应 磁盘 上 的 物理 块 。 页 高 速 缓存 大 小 能 
动态 调整 一 一 它 可 以 通过 占用 空闲 内 存 以 扩张 大 小 ， 也 可 以 自我 收缩 以 缓解 内 存 使 用 压力 。 我 们 
称 正 被 缓存 的 存储 设备 为 后 备 存储 ， 因 为 缓存 背后 的 磁盘 无 疑 才 是 所 有 缓存 数据 的 归属 。 当 内 核 
开始 一 个 读 操作 〈 比 如， 进程 发 起 一 个 read() 系统 凋 用 )， 它 首先 会 检查 需要 的 数据 是 否 在 页 高 
速 缓 存 中 。 如 果 在 ， 则 放弃 访问 磁盘 ， 而 直接 从 内 存 中 读 取 。 这 个 行为 称 作 缓 存 命 中 。 如 果 数 据 
没有 在 缓存 中 ， 称 为 缓存 未 命中 ， 那 么 内 核 必须 调度 块 VO 操作 从 磁盘 去 读 取 数据 。 然 后 内 核 将 
读 来 的 数据 放 入 页 缓存 中 ， 于 是 任何 后 续 相同 的 数据 读 取 都 可 命中 缓存 了 。 福 意 ， 系 统 并 不 一 定 
要 将 整个 文件 都 缓存 。 缓 存 可 以 持 有 某 个 文件 的 全 部 内 容 ， 也 可 以 存储 另 一 些 文件 的 一 页 或 者 几 
页 。 到 底 该 绥 存 谁 取决 于 谁 被 访问 到 。 


16.1.1 写 缓存 


上 面 解释 了 在 读 操作 过 程 中 页 高 速 缓存 的 作用 ， 那 么 在 进程 写 磁盘 时 ， 比 如 执行 write() 系 
统 调用 ， 缓 存 如 何 被 使 用 呢 ? 通常 来 讲 ， 缓 存 一 般 被 实现 成 下 面 三 种 策略 之 一 : 第 一 种 策略 称 为 
不 缓存 (nowrite)， 也 就 是 说 高 速 缓存 不 去 缓存 任何 写 操 作 。 当 对 一 个 缓存 中 的 数据 片 进行 写 时 ， 
将 直接 跳 过 缓存 ， 写 到 磁盘 ， 同 时 也 使 缓存 中 的 数据 失效 。 那 么 如 果 后 续 读 操作 进行 时 ， 需 要 再 
重新 从 磁盘 中 读 取 数据 。 不 过 这 种 策略 很 少 使 用 ， 因 为 该 策略 不 但 不 去 缓存 写 操作 ， 而 且 需 要 额 
外 费力 去 使 缓存 数据 失效 。 
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第 二 种 策略 ， 写 操作 将 自动 更 新 内 存 缓存 ， 同 时 也 更 新 磁盘 文件 。 这 种 方式 ， 通 常 称 为 写 
透 缓存 (write-through cache)， 因 为 写 操作 会 立刻 穿 透 缓存 到 磁盘 中 。 这 种 策略 对 保持 缓存 一 
致 性 很 有 好 处 一 一 缓存 数据 时 刻 和 后 备 存储 保持 同步 ， 所 以 不 需要 让 缓存 失效 ， 同 时 它 的 实现 也 
最 简单 。 

第 三 种 策略 ， 也 是 Linux 所 采用 的 ， 称 为 “ 回 写 ” 扣 。 在 这 种 策略 下 ， 程 序 执行 写 操作 直接 
写 到 缓存 中 ， 后 端 存储 不 会 立刻 直接 更 新 ， 而 是 将 页 高 速 缓存 中 被 写 和 人 的 页 面 标记 成 “ 脏 ”， 并 
且 被 加 入 到 脏 页 链表 中 。 然 后 由 一 个 进程 〈 回 写 进程 ) 周期 行将 脏 页 链表 中 的 页 写 回 到 磁盘 ， 从 
而 让 磁盘 中 的 数据 和 内 存 中 最 终 一 致 。 最 后 清理 “ 脏 ” 页 标识 。 注 意 这 里 “ 脏 页 ”这 个 词 可 能 
引起 混淆 ， 因 为 实际 上 脏 的 并 非 页 高 速 缓 存 中 的 数据 (它们 是 干 干净 净 的 )， 而 是 磁盘 中 的 数据 
(它们 已 过 时 了 )。 也 许 更 好 的 描述 应 该 是 “未 同步 ” 吧 。 尽 管 如 此 ， 我 们 说 缓存 内 容 是 脏 的 ， 而 
不 是 说 磁盘 内 容 。 回 写 策 略 通 芝 认为 要 好 于 写 透 策略 ， 因 为 通过 延迟 写 磁 盘 ， 方 便 在 以 后 的 时 
加 内 合并 更 多 的 数据 和 再 一 次 刷新 。 当 然 ， 其 代价 是 实现 复杂 度 高 了 许多 。 


16.1.2 ”缓存 回收 


缓存 算法 最 后 涉及 的 重要 内 容 是 缓存 中 的 数据 如 何 清除 ; 或 者 是 为 更 重要 的 缓存 项 腾 出 位 
置 ; 或 者 是 收缩 缓存 大 小 ， 腾 出 内 存 给 其 他 地 方 使 用 。 这 个 工作 ， 也 就 是 决定 缓存 中 什么 内 容 将 
被 清除 的 策略 ， 称 为 缓存 回收 策略 。Linux 的 缓存 回收 是 通过 选择 干净 页 (不 脏 ) 进行 简单 替换 。 
如 果 缓 存 中 没有 足够 的 干净 页 面 ， 内 核 将 强制 地 进行 回 写 操作 ， 以 腾 出 更 多 的 干净 可 用 页 。 最 难 
的 事情 在 于 决定 什么 页 应 该 回收 。 理 想 的 回收 策略 应 该 是 回收 那些 以 后 最 不 可 能 使 用 的 页 面 。 当 
然 要 知道 以 后 的 事情 你 必须 是 先知 。 也 正 是 这 个 原因 ， 理 想 的 回收 策略 称 为 预测 算法 。 但 这 种 策 
略 太 理想 了 ， 无 法 真正 实现 。 

1. 最 近 最 少 使 用 

缓存 回收 策略 通过 所 访问 的 数据 特性 ， 尽 量 追 求 预 测 效 率 。 最 成 功 的 算法 (特别 是 对 于 通用 
目的 的 页 高 速 缓存 ) 称 作 最 近 最 少 使 用 算法 ， 简 称 LRU。 LRU 回收 策略 需要 跟踪 每 个 页 面 的 访 
问 踪 迹 〈 或 者 至 少 按照 访问 时 间 为 序 的 页 链表 )， 以 便 能 回收 最 老 时 间 惟 的 页 面 〈 或 者 回收 排序 
链表 头 所 指 的 页 面 )。 该 策略 的 良好 效果 源 自 于 缓存 的 数据 越久 未 被 访问 ， 则 越 不 大 可 能 近期 再 
被 访问 ， 而 最 近 被 访问 的 最 有 可 能 被 再 次 访问 。 但 是 ，LRU 策略 并 非 是 放 之 四 诲 而 皆 准 的 法 则 ， 
对 于 许多 文件 被 访问 一 次 ， 再 不 被 访问 的 情景 ，LRU 尤其 失败 。 将 这 些 页 面 放 在 LRU 链 的 顶端 
显然 不 是 最 优 ， 当 然 ， 内 核 并 设 办 法 知道 一 个 文件 只 会 被 访问 一 次 ， 但 是 它 却 知 道 过 去 访问 了 多 
少 次 。 

2. 双 链 策略 

Linux 实现 的 是 一 个 修改 过 的 LRU， 也 称 为 双 链 策略 。 和 以 前 不 同 ，Linux 维护 的 不 再 是 
一 个 LUR 链表 ， 而 是 维护 两 个 链表 : 活跃 链表 和 非 活跃 链表 。 处 于 活跃 链表 上 的 页 面 被 认为 是 


全 有些 书 或 者 操作 系统 称 这 个 策略 是 copy-write 或 者 write-behind 缓存 。 所 有 这 些 命名 都 是 同 闵 词 。 Linux 和 其 
他 Unix 系统 使 用 write-back 称谓 来 描述 缓存 策略 ， 使 用 writeback 称谓 描述 写 缓存 数据 到 后 各 存储 这 一 动作 。 
本 书 遵循 这 种 称谓 。 
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“ 热 ” 的 且 不 会 被 换 出 ， 而 在 非 活 跃 链表 上 的 页 面 则 是 可 以 被 换 出 的 。 在 活跃 链表 中 的 页 面 必 须 
在 其 被 访问 时 就 处 于 非 活跃 链表 中 。 两 个 链表 都 被 伪 LRU 规则 维护 : 页 面 从 尾部 加 入 ， 从 头 部 
移 除 ， 如 同 队 列 。 两 个 链表 需要 维持 平衡 一 一 如 果 活 跃 链表 变 得 过 多 而 超过 了 非 活 跃 链表 ， 那 
么 活跃 链表 的 头 页 面 将 被 重新 移 回 到 非 活 跃 链表 中 ， 以 便 能 再 被 回收 。 双 链表 策略 解决 了 传统 
LRU 算法 中 对 仅 一 次 访问 的 窘境 。 而 且 也 更 加 简单 的 实现 了 伪 LRU 语义 。 这 种 双 链 表 方式 也 称 
作 LUR/2。 更 普 胡 的 是 n 小 链表 ， 故 称 LRUAmm。 

我 们 现在 知道 页 缓存 如 何 构 建 ( 通 过 读 和 写 )， 如 何在 写 时 被 同步 (通过 回 写 ) 以 及 旧 数 
据 如 何 被 回收 来 容纳 新 数据 (通过 双 链 表 )。 现 在 让 我 们 看 看 真实 世界 应 用 场景 中 ， 页 商 速 缓 
存 如 何 帮助 系统 。 假 定 你 在 开发 一 个 很 大 的 软件 工程 (比如 Linux 内 核 ) 那么 你 将 有 大 量 的 源 
文件 被 打开 ， 只 要 你 打开 读 取 源 文 件 ， 这 些 文件 就 将 被 存储 在 页 高 速 缓 在 中 。 只 要 数据 被 组 
存 ， 那 么 从 一 个 文件 跳 到 另 一 个 文件 将 瞬间 完成 。 当 你 编辑 文件 时 ， 存 储 文件 也 会 瞬间 完成 ， 
因为 写 操作 只 需要 写 到 内 存 ， 而 不 是 磁盘 。 当 你 编译 项 目 时 ， 缓 存 的 文件 将 使 得 编译 过 程 更 少 
访问 磁盘 ， 所 以 编译 速度 也 就 更 快 了 。 如 果 整 个 源码 树 太 大 了 ， 无 法 一 次 性 放 人 内存， 那么 其 
中 一 部 分 必须 被 回收 一 一 由 于 双 链 表 策 略 ， 任 何 回收 的 文件 都 将 处 于 非 活 跃 链 表 ， 而 且 不 大 可 
能 是 你 正在 编译 的 文件 。 幸运 的 是 ， 在 你 设 在 编译 的 时 候 ， 内 核 会 执行 页 回 写 ， 刷 新 你 所 修 
改 文件 的 磁盘 副本 。 由 此 可 见 ， 缓 存 和 将 极 大 地 提高 系统 性 能 。 为 了 看 到 差别 ， 对 比 一 下 缓存 冷 
(cache cold) 时 (也 就 是 说 重启 后 ， 编 译 你 的 大 软件 工程 的 时 间 〉 和 缓存 热 (cache warm) 时 
的 差别 吧 。 


16.2 ”Linux 页 高 速 缓存 


从 名 字 可 以 看 出 ， 页 高 速 缓 存 缓存 的 是 内 存 页 面 。 缓 存 中 的 页 来 自 对 正规 文件 、 块 设备 文件 
和 内 存 映 射 文件 的 读 写 。 如 此 一 来 ， 页 高 速 缓存 就 包含 了 最 近 被 访问 过 的 文件 的 数据 块 。 在 执行 
一 个 VO 操作 前 (比如 read0 昌 操 作 )， 内 核 会 检查 数据 是 否 已 经 在 页 高 速 缓存 中 了 ， 如 果 所 需要 
的 数据 确实 在 高 速 缓存 中 ， 那 么 内 核 可 以 从 内 存 中 迅速 地 返回 需要 的 页 ， 而 不 再 需要 从 相对 较 悍 
的 磁盘 上 读 取 数 据 。 在 接 下 来 的 章节 里 ， 我 们 将 剖析 具体 的 数据 结构 以 及 内 核 如 何 使 用 它们 管理 
缓存 。 


16.2.1 address_ space 对 象 


在 页 高 速 缓 存 中 的 页 可 能 包含 了 多 个 不 连续 的 物理 磁盘 块 S。 也 正 是 由 于 页 面 中 映射 的 磁盘 
块 不 一 定 连续 ， 所 以 在 页 高 速 缓存 中 检查 特定 数据 是 否 已 经 被 缓存 是 件 颇 为 困难 的 工作 。 因 为 不 
能 用 设备 名 称 和 块 号 来 做 页 高 速 缓存 中 的 数据 的 索引 ， 要 不 然 这 将 是 最 简单 的 定位 办 法 。 

另外 ，Linux 页 高 速 缓 存 对 被 缓存 的 页 面 范围 定义 非常 宽泛 。 实 际 上 ， 在 最 初 System V 


日 、 如 你 在 第 13 章 所 见 ， 并 非 read0、write0 系统 调用 执行 实际 的 页 VO 操作 ， 而 是 通过 文件 系统 提供 的 特定 操 
作 file->f op->read0O 和 file->f op->write0 完成 。 

旨 比 如 ，x86 体 系 结构 中 一 个 物理 页 大 小 是 4 区 B。 而 大 多 数 文件 系统 的 块 大 小 仅仅 5L2KB。 质 以 八 个 块 才 可 以 
填 福 一 个 页 面 。 另 外 因为 文件 本 身 可 能 分 布 在 磁盘 上 的 各 个 位 置 ， 所 以 页 面 中 映射 的 块 也 不 需要 连续 。 
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Release 4 5| 人 页 高 速 绥 存 时 ， 仅 仅 只 用 作 绥 存 文件 系统 数据 ， 所 以 SVR4 的 页 高 速 缓存 使 用 它 
的 等 价 文件 对 象 〈 称 为 vnode 结构 体 ) 管理 页 高 速 缓 在。Linux 页 高 速 缓存 的 目标 是 缓存 任何 基 
于 页 的 对 象 ， 这 包含 各 种 类 型 的 文件 和 各 种 类 型 的 内 存 映射 。 

虽然 Linux 页 高 速 缓 存 可 以 通过 扩展 inode 结构 体 ( 见 第 13 章 ) 支持 页 IO 操作 ， 但 这 种 
做 法 会 将 页 高 速 妈 存 局 限于 文件 。 为 了 维持 页 高 速 缓存 的 普遍 性 (不 应 该 将 其 关 定 到 物理 文件 
或 者 inode 结构 体 )，Linux 页 高 速 缓存 使 用 了 一 个 新 对 象 管理 缓存 项 和 页 IO 操作 。 这 个 对 象 
是 address_space 结构 体 。 该 结构 体 是 第 15 章 介 绍 的 虚拟 地 址 vm_area_struct 的 物理 地 址 对 等 体 。 
当 一 个 文件 可 以 被 10 个 vm_area_struct 结构 体 标 识 〈 比 如 有 5 个 进程 ， 每 个 调用 mmap( 映射 它 
两 次 )， 那 么 这 个 文件 只 能 有 一 个 address_space 数据 结构 一 一 也 就 是 文件 可 以 有 多 个 虚拟 地 址 ， 
但 是 只 能 在 物理 内 存 有 一 份 。 与 Linux 内 核 中 其 他 结构 一 样 ，address_space 也 是 文 不 对 题 ， 也 许 
更 应 该 叫 它 page_cache_entity 或 者 physical pages of a file。 

该 结构 定义 在 文件 <linux/fs.h> 中 ， 下 面 给 出 具体 形式 : 


struct address space I 


atruct inode *host; /+ 拥有 节点 */ 

struct radix tree root page tree; jw 和 包含 全 部 页 面 的 radix 树 */ 
spinlock 七 tree lock; /sw 保护 page_tree 的 自 旋 钢 */ 
unsigned int i mmap writable; jw VM SHARED 计数 */ 

struct prio tree root i_mmap; /* 私 有 了 映射 链表 */ 

struct list head i mmap nonlinear,; jw VM NONLINEAR 链表 */ 
spinlock t i mmap lock; /* 保护 i mmap 的 自 旋 锁 */ 
atomic t truncate count; A/* 截断 计数 */ 

unsigned long nrpages; 1* 页 总 数 */ 

pgoff 七 writeback index; /* 回 写 的 起 始 偏 移 */ 

struct address space operations *#a OpS; /* 操作 表 */ 

unsigned long Hlags; /* gfp_mask 掩 码 与 错误 标识 */ 
struct backing dev info *backing dev info; /* 预 读 信息 */ 

spinlock t private lock; /* 私有 address_space 钢 */ 
struct list head private list; /* 私有 address space 链表 */ 
struct address space *assoc mapping; 1/* 相关 的 缓冲 */ 


}; 


其 中 i_ mmap 字段 是 一 个 优先 搜索 树 ， 它 的 搜索 范围 包含 了 在 address_space 中 所 有 共享 的 
与 私有 的 映射 页 面 。 优 先 搜索 树 是 一 种 巧妙 地 将 堆 与 radix 树 结 合 名 的 快速 检索 树 。 回 忆 早 些 提 
到 的 : 一 个 被 缓存 的 文件 只 和 一 个 address_space 结构 体 相 关联 ， 但 它 可 以 有 多 个 vm _area_struct 
结构 体 一 一 一 物理 页 到 虚拟 页 是 个 一 对 多 的 映射 。i_map 字段 可 帮助 内 核 高 效 地 找到 关联 的 被 组 
存 文件 。 

address space 页 总 数 由 nrpages 字段 描述 。 

address_space 结构 往往 会 和 某 些 内 核对 象 关 联 。 通 常情 况 下 ， 它 会 与 一 个 索引 节点 (inode) 
关联 ， 这 时 host 域 就 会 指向 该 索引 节点 ; 如 果 关 联 对 象 不 是 一 个 索引 节点 的 话 ， 比 如 address_ 
space 和 swapper 关联 时 ，host 域 会 被 置 为 NULL。 


日 在 内 核 中 采用 Raidix 优先 搜索 树 是 由 Edward M. McCreight 1985 年 5 月 于 SIAM 计算 机 杂志 第 14 期， 第 2 
集 ，257 一 276 页 中 提出 的 。 
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16.2.2 address_space 操作 


a_ops 域 指向 地 址 空间 对 象 中 的 操作 函数 表 ， 这 与 VFS 对 象 及 其 操作 表 关 系 类 似 ， 操 作 函 数 
表 定 义 在 文件 <linux/fs.h> 中 ， 由 address_space_operations 结构 体 来 表示 : 


atruct address space operations | 
int (*writepage) (struct page *, struct writeback control + 上 ) ; 
int (*readpage) (struct file *, gtruct page *); 
int (*gync page) (struct page #*);} 
int (*writepages}) lstruct address space *, 
struct writeback control *);} 
int I(*set page dirty) lstruct page *); 
int (*readpages)}) (struct file *, struct address space *, 
struct list head *, unsigned); 
int (*write begin}) (atruct file *, struct address space *mapping, 
loff t pos, unsigned len, unsigned flags, 
struct page **pagep, Vvoid **fadata); 
int (*write end}) (struct file *, struct address space *mapping, 
loff t pos, unsigned len, unsigned copied, 
atruct page *page, void *fsdata); 
Bector 七 (*bmap) lastruct address space *, sector t); 
int (*invalidatepage) (gtruct page *, Unsigned long}); 
int {*releasepage) lstruct page *, int); 
int (*direct IO) lint, struct kiocbh *, const struct iovec 二 ， 
loff t, unsigned long}; 
int {*get xip mem) lstruct address space *, pgoff t, int, 
void **, nsigned long *); 
int (*migratepage) lstruct address Space *, 
struct page *, struct page *);} 
int {*launder page) ‘struct page *); 
int (*is partially uptodate) {struct page *, 
read descriptor 七 *, 
unsigned long); 
int li*error remove page) lstruct address space *, 
struct page *}); 


}; 

这 些 方法 指针 指向 那些 为 指定 缓存 对 象 实现 的 页 IO 操作 。 每 个 后 备 存储 都 通过 自己 的 
address_space_operation 描述 自己 如 何 与 页 高 速 缓存 交互 。 比 如 ext3 文件 系统 在 文件 fs/ext3/ 
inode.c 中 定义 自己 的 操作 表 。 这 些 方法 提供 了 管理 页 高 速 缓存 的 各 种 行为 ， 包 括 最 常用 的 读 页 
到 缓存 、 更 新 缓存 数据 。 这 里 面 readpage0 和 writepage0 两 个 方法 最 为 重要 。 我 们 下 面 就 来 看 看 
一 个 页 面 的 读 操作 会 包含 哪些 步骤 。 首 先 linux 内 核 试图 在 页 高 速 缓 存 中 找到 需要 的 数据 ; find_ 
get_page0 方法 负责 完成 这 个 检查 动作 。 一 个 address_space 对 象 和 一 个 偏 移 量 会 传 给 fnd_get_ 
page() 方法 ， 用 于 在 页 高 速 缓 存 中 搜索 需要 的 数据 : 


Page = find get page (mapping ,index):; 


这 里 mapping 是 指定 的 地 址 空间 ，index 是 文件 中 的 指定 位 置 ， 以 页 面 为 单位 (是 的 ， 称 
address_space 结构 体 为 mapping， 又 是 一 个 容易 混 消 的 命名 ， 虽 然 我 也 在 重复 这 种 内 核 合 名 不 一 
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致 的 问题 ， 但 我 还 是 鄙视 它 )。 如 果 搜 索 的 页 并 没 在 高 速 缓存 中 ，find_get page0 将 会 返回 一 个 
NULL， 并 且 内 核 将 分 配 一 个 新 页 面 ， 然 后 将 之 前 搜索 的 页 加 入 到 页 高 速 缓存 中 。 
struct page *pages 


int error: 


fn 分 配 页 ee*/ 
page = page cache alloc cold(mapping); 
if(!page) | 

/* 内 存 分 配 出 错 */ 


/*… 然后 和 将 其 加 入 到 页 面 调 整 缓存 */ 
error = aAdd to page cache lrulpage,mapping, index,GFP KERNEL).; 
if (error) 


/* 页 面 被 加 入 到 页 面 高 速 缓存 时 ， 出 错 */ 
最 后 ， 需 要 的 数据 从 磁盘 被 读 人 ， 再 被 加 和 人 页 高 速 缓存 ， 然 后 返回 给 用 户 : 
error= mapping->a ops->readpage (fle,page) ; 
写 操作 和 读 操 作 有 少许 不 同 。 对 于 文件 映射 来 说 ， 当 页 被 修改 了 ，VM 仅仅 需要 调用 : 
SetPageDirty (page); 


内 核 会 在 晚 些 时 候 通 过 writepage0 方法 把 页 写 出 。 对 特定 文件 的 写 操作 比较 复杂 ， 它 的 代 
码 在 文件 mm/filemap.c 中 ， 通 常 写 操作 路 径 要 包含 以 下 各 步 : 

Page = _ grab cache page (mapping, index, kcached page,&lru pvec); 

status = a Oops->prepare write (file,page.,offset,offseti+bytes),; 

page fault = filemap copy_from user (page, offset,buf,bytes); 

astatus = a ops->commit write lfile,page,offeset,offset+byteas}; 


首先 ， 在 页 高 速 缓 存 中 搜索 需要 的 页 。 如 果 和 需要 的 页 不 在 高 速 缓 存 中 ， 那 么 内 核 在 高 速 缓 存 
中 新 分 配 一 空闲 项 ; 下 一 步 ， 内 核 创建 一 个 写 请 求 ; 接着 数据 被 从 用 户 空间 找 贝 到 了 内 核 缓冲 : 
最 后 将 数据 写 入 磁盘 。 

因为 所 有 的 页 VO 操作 都 要 执行 上 面 这 些 步 骤 ， 这 就 保证 了 所 有 的 页 VO 操作 必然 都 是 通过 
页 高 速 缓存 进行 的 。 因 此 ， 内 核 也 总 是 试图 先 通过 页 高 速 缓存 来 满足 所 有 的 读 请 求 。 如 果 在 页 高 
速 缓 存 中 未 搜索 到 需要 的 页 ， 则 内 核 将 从 磁盘 读 和 需要 的 页 ， 然 后 将 该 页 加 入 到 页 高 速 缓 存 中 ; 
对 于 写 操 作 ， 页 高 速 缓存 更 像 是 一 个 存储 平台 ， 所 有 要 被 写 出 的 页 都 要 加 入 页 高 速 缓存 中 。 


16.2.3 基 树 


因为 在 任何 页 IO 操作 前 内 核 都 要 检查 页 是 否 已 经 在 页 高 速 缓存 中 了 ， 所 以 这 种 频繁 进行 的 
检查 必须 了 迅速、 高效， 否则 搜索 和 检查 页 高 速 缓 存 的 开销 可 能 抵消 页 高 速 缓 存 带 来 的 好 处 (至 少 
在 缓存 命中 率 很 低 的 时 候 ， 搜 索 的 开销 足以 抵消 以 内 存 代替 磁盘 进行 检索 数据 带 来 的 好 处 )。 

正如 在 16.2.2 节 所 看 到 的 ， 页 高 速 缓存 通过 两 个 参数 address_space 对 象 加 上 一 个 偏 移 量 进 
行 搜索 。 每 个 address_space 对 象 都 有 唯一 的 基 树 (radix tree)， 它 保存 在 page_tree 结构 体 中 。 基 
树 是 一 个 二 叉 树 ， 只 要 指定 了 文件 偏 移 量 ， 就 可 以 在 基 树 中 迅速 检索 到 希望 的 页 。 页 高 速 缓 存 的 
搜索 函数 find_get_page0 要 调用 国 数 radix_tree_lookup()， 该 函数 会 在 指定 基 树 中 搜索 指定 页 面 。 
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基 树 核心 代码 的 通用 形式 可 以 在 文件 lib/radix-tree.c 中 技 到 。 另 外 ， 要 想 使 用 基 树 ， 需 要 包 
含 头 文件 <linux/radix tree.h>。 


16.2.4 ”以 前 的 页 散 列表 


在 2.6 版 本 以 前 ， 内 核 页 高 速 缓存 不 是 通过 基 树 检索 ， 而 是 通过 一 个 维护 了 系统 中 所 有 页 的 
全 局 散 列 表 进 行 检索 。 对 于 给 定 的 一 个 键 值 ， 该 散 列 表 会 返回 一 个 双向 链表 的 人 口 对 应 于 这 个 所 
给 定 的 值 。 如 果 需 要 的 页 贮存 在 缓存 中 ， 那 么 链表 中 的 一 项 就 会 与 其 对 应 。 否 则 ， 页 就 不 在 页 面 
高 速 缓存 中 ， 散 列 函 数 返 回 NULL。 

全 局 散 列表 主要 存在 四 个 问题 : 

*。 由 于 使 用 单个 的 全 局 锁 保 护 散 列 表 ， 所 以 即使 在 中 等 规模 的 机 器 中 ， 锁 的 争 用 情况 也 会 相 

当 严 重 ， 造 成 性 能 受 损 。 

* 由 于 散 列 表 需 要 包含 所 有 页 高 速 缓存 中 的 页 ， 可 是 搜索 需要 的 只 是 和 当前 文件 相关 的 那些 

页 ， 所 以 散 列表 包含 的 页 面相 比 搜索 需要 的 页 面 要 大 得 多 。 

* 如 果 散 列 搜索 失败 (也 就 是 给 定 的 页 不 在 页 高 速 缓存 中 )， 执 行 速度 比 希 望 的 要 惕 得 多 ， 

这 是 因为 检索 必须 遍历 指定 散 列 键 值 对 应 的 整个 链表 。 

* 散 列表 比 其 他 方法 会 消耗 更 多 的 内 存 。 

2.6 版 本 内 核 中 引入 基于 基 树 的 页 高 速 缓存 来 解决 这 些 问题 。 


16.3 ”缓冲 区 高 速 缓存 


独立 的 磁盘 块 通过 块 UO 缓冲 也 要 被 存 人 页 高 速 缓存 。 回 忆 一 下 第 14 章 ， 一 个 缓冲 是 一 个 
物理 磁盘 块 在 内 存 里 的 表示 。 缓 冲 的 作用 就 是 映射 内 存 中 的 页 面 到 磁盘 块 ， 这 样 一 来 页 高 速 缓存 
在 块 IO 操作 时 也 减少 了 磁盘 访问 ， 因 为 它 缓 存 磁盘 块 和 减少 块 TO 操作 。 这 个 缓存 通常 称 为 组 
冲 区 高 速 缓存 ， 虽 然 实 现 上 它 没有 作为 独立 缓存 ， 而 是 作为 页 高 速 缓存 的 一 部 分 。 

块 VO 操作 一 次 操作 一 个 单独 的 磁盘 块 。 普 遍 的 块 1/O 操作 是 读 写 i 市 各 。 内 核 提 供 了 
bread0 函数 实现 从 磁盘 读 一 个 块 的 底层 操作 。 通 过 缓存 ， 磁 盘 块 映射 到 它们 相关 的 内 存 页 ， 并 
缓存 到 页 高 速 缓存 中 。 

缓冲 和 页 高 速 缓存 并 非 天 生 就 是 统一 的 ，2.4 内 核 的 主要 工作 之 一 就 是 统一 它们 。 在 更 早 的 
内 核 中 ， 有 两 个 独立 的 磁盘 缓存 : 页 高 速 缓存 和 缓冲 区 高 速 缓存 。 前 者 缓存 页 面 ， 后 者 缓存 缓 名 
区 ， 这 两 个 缓存 并 设 有 统一 。 一 个 磁盘 块 可 以 同时 存 于 两 个 缓存 中 ， 这 导致 必须 同步 操作 两 个 组 
冲 中 的 数据 ， 而 且 浪 费 了 内 存 ， 去 存储 重复 的 缓存 项 。 今 天 我 们 只 有 一 个 磁盘 缓存 ， 即 页 高 速 缓 
存 。 虽 然 如 此 ， 内 核 仍然 需要 在 内 存 中 使 用 缓冲 来 表示 磁盘 块 ， 幸 好 ， 缓 冲 是 用 页 映射 块 的 ， 所 
以 它 正好 在 页 高 速 缓存 中 。 


16.4 flusher 线程 


由 于 页 高 速 缓存 的 缓存 作用 ， 写 操作 实际 上 会 被 延迟 。 当 页 高 速 缓存 中 的 数据 比 后 台 存 储 的 
数据 更 新 时 ， 该 数据 就 称 作 脏 数 据 。 在 内 存 中 累积 起 来 的 脏 页 革 终 必须 被 写 回 磁盘 。 在 以 下 3 种 
情况 发 生 时 ， 脏 页 被 写 回 磁盘 : 
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* 当空 闪 内 存 低 于 一 个 特定 的 阔 值 时 ， 内 核 必须 将 脏 页 写 回 磁盘 以 便 释放 内 存 ， 因 为 只 有 干 
净 〔 不 脏 的 〉》 内 存 才 可 以 被 回收 。 当 内 存 干净 后 ， 内 核 就 可 以 从 缓存 清理 数据 ， 然 后 收缩 
缓存 ， 最 终 释 放出 更 多 的 内 存 。 
* 当 胜 页 在 内 存 中 斑 留 时 间 超过 一 个 特定 的 园 值 时 ， 内 核 必须 将 超时 的 胜 页 写 回 磁盘 ， 以 确 
保 脏 页 不 会 无 限期 地 驻 留 在 内 存 中 。 
“。， 当 用 户 进 程 调 用 sync() 和 fsyne0 系统 调用 时 ， 内 核 会 按 要 求 执行 回 写 动作 。 
上 面 三 种 工作 的 目的 完全 不 同 。 实 际 上 ， 在 旧 内 核 中 ， 这 是 由 两 个 独立 的 内 核 线 程 〈 请 看 后 
面 章节 ) 分 别 完成 的 。 但 是 在 2.6 内 核 中 ， 由 一 群 9 内 核 线程 〈fiusher 线程 ) 执行 这 三 种 工作 。 
首先 ，flusher 线程 在 系统 中 的 空 亲 内 存 低 于 一 个 特定 的 国 值 时 ， 将 隆 页 刷新 写 回 磁盘 。 读 后 
从 回 写 例 程 的 目的 在 于 一 一 在 可 用 物理 内 存 过 低 时 ， 释 放 脏 页 以 重新 获得 内 存 。 这 个 特定 的 内 存 
立 值 可 以 通过 dirty_background_ratio sysctl 系统 调用 设置 。 当 空闲 内 存 比 阔 值 dirty_background_ 
ratio 还 低 时 ， 内 核 便 会 调用 函数 fusher threads(0) 号 唤醒 一 个 或 多 个 ftusher 线程 ， 随 后 flusher 线 
程 进 一 步调 用 国 数 bdi_writeback_all0 开始 将 脏 页 写 回 磁盘 。 该 函数 需要 一 个 参数 一 一 试图 写 回 
的 页 面 数 目 。 国 数 连 续 地 写 出 数据 ， 直 到 斌 足以 下 两 个 条 件 : 
* 已 经 有 指定 的 最 小 数目 的 页 被 写 出 到 磁盘 。 
* 宇 闲 内 存 数 已 经 回升 ， 超 过 了 靖 值 dirty_background ratio。 
上 述 条 件 确 保 了 fusher 线程 操作 可 以 减轻 系统 中 内 存 不 足 的 压力 。 回 写 操作 不 会 在 达到 这 
两 个 条 件 衣 停止， 除非 刷新 者 线程 写 回 了 所 有 的 及 页 ， 设 有 剩 下 的 脏 页 可 再 被 写 回 了 。 
为 了 满足 第 二 个 目标 ，flusher 线程 后 台 例 程 会 被 周期 性 唤醒 〈 和 空闲 内 存 是 否 过 低 无 关 )， 
将 那些 在 内 存 中 些 留 时 间 过 长 的 脏 页 写 出 ， 确 保 内 存 中 不 会 有 长 期 存在 的 脏 页 。 如 果 系 统 发 生 崩 
谢 ， 由 于 内 存 处 于 混乱 之 中 ， 所 以 那些 在 内 存 中 还 没 来 得 及 写 回 磁盘 的 脏 页 就 会 丢失 ， 所 以 周 
期 性 同步 页 高 速 组 在 和 磁盘 非常 重要 。 在 系统 局 动 时 ， 内 核 初 始 化 一 个 定时 器 ， 让 它 周期 地 唤 
醒 flusher 线程 ， 随 后 使 其 运行 国 数 wb_writeback()。 访 函数 将 把 所 有 驻 留 时 间 超 过 dirty_expire_ 
interval ms 的 脏 页 写 回 。 然 后 定时 器 将 再 次 被 初始 化 为 dirty expire centisecs 种 后 唤醒 flusher 线 
程 。 总 而 言 之 ，flusher 线程 周期 性 地 被 唤醒 并 且 把 超过 特定 期 限 的 脏 页 写 回 磁盘 。 
系统 管理 员 可 以 在 /proc/sys/vm 中 设置 回 写 相 关 的 参数 ， 也 可 以 通过 sysctl 系统 调用 设置 它 
们 。 表 16-1 列 出 了 与 pdftush 相关 的 所 有 可 设置 变量 。 


表 16-1 页 回 写 设置 


变 量 描 述 
dirty_background_ratio 占 全 部 内 存 的 百分比 。 当 内 存 中 空 亲 页 达到 这 个 比例 时 ，pdflush 线程 开始 回 写 上 脏 页 
dirty expire interval 该 数值 以 百 分 之 一 秒 为 单位 ， 它 描述 超时 多 外 的 数据 将 被 周期 性 执行 的 pdflush 线程 写 出 
dirty_ratio 占 全 部 肉 存 百分比 ， 当 一 个 进程 产生 的 脏 页 达到 这 个 比例 时 ， 就 开始 被 写 出 
dirty_writeback interval 读数 值 以 百 分 之 一 秒 为 单位 , 它 摘 述 pdflush 线程 的 运行 频率 


laptop_mode 一 个 布尔 值 ， 用 于 控制 膝 上 型 计算 机 模式 ， 具 体 请 见 后 续 内 容 


日 术语 “ 群 ” 通常 在 计算 机 科学 中 指 的 是 一 组 可 以 并 行 执行 的 事情 。 
日 是 的 ， 它 的 确 命名 错 了 ， 它 应 该 称 为 wakeup_bdfitushO。 原 因 请 看 后 面 关 于 这 个 调用 的 继承 部 分 。 
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fusher 线程 的 实现 代码 在 文件 mm/page-writeback.c 和 mm/backing-dev.c 中 ， 回 写 机 制 的 实 
现代 码 在 文件 fs/fs-writeback.c 中 。 


16.4.1 膝 上 型 计算 机 模式 


膝 上 型 计算 机 模式 是 一 种 特殊 的 页 回 写 策略 ， 该 策略 主要 意图 是 将 硬盘 转动 的 机 械 行为 最 小 
化 ， 公 许 硬盘 尽 可 能 长 时 间 地 停 汪 ， 以 此 延长 电 字 供电 时 间 。 读 模式 可 通过 /proc/sys/vm/laptop_ 
mode 文件 进行 配置 。 通 常 ， 上 述 配 置 文件 内 容 为 0， 也 就 是 说 膝 上 型 计算 机 模式 关闭 ， 如 果 需 
要 启用 膝 上 型 计算 机 模式 ， 则 向 配置 文件 中 写 入 1。 

膝 上 型 计算 机 模式 的 页 回 写 行为 与 传统 方式 相 比 只 有 一 处 变化 。 除 了 当 缓 存 中 的 页 面 太 旧时 
要 执行 回 写 脏 页 以 外 ，flusher 还 会 找 准 磁盘 运转 的 时 机 ， 把 所 有 其 他 的 物理 磁盘 TO、 刷 新 脏 组 
冲 等 通通 写 回 到 磁盘 ， 以 便 保 证 不 会 专门 为 了 写 磁盘 而 去 主动 油 活 磁盘 运行 。 

上 述 回 写 行为 变化 要 求 dirty expire interval 和 dirty_writeback_interval 两 效 值 必须 设置 得 更 
大 ， 比 如 10 分 钟 。 因 为 磁盘 运转 并 不 很 频繁 ， 所 以 用 这 样 长 的 回 写 延迟 就 能 保证 膝 上 型 计算 机 
模式 可 以 等 到 磁盘 运转 机 会 写 人 数据 。 因 为 关闭 磁盘 驱动 器 是 节 电 的 重要 手段 ， 膝 上 模式 可 以 延 
长 膝 上 计算 机 依靠 电 字 的 续航 能 力 。 其 坏处 则 是 系统 崩 渍 或 者 其 他 错误 会 使 得 数据 丢失 。 

多 数 Linux 发 布 版 会 在 计算 机 接 上 电池 或 拔 掉 电池 时 ， 自 动 开 启 或 禁止 膝 上 型 计算 机 模式 以 
及 其 他 需要 的 回 写 可 调节 开关 。 因 此 机 器 可 在 使 用 电池 电源 时 自动 进入 膝 上 型 计算 机 模式 ， 而 在 
插 上 交流 电源 时 恢复 到 常规 的 页 回 写 模式 。 


16.4.2 历史 上 的 bdflush、kupdated 和 pdflush 


在 2.6 版 本 前 ，flusher 线程 的 工作 是 分 别 由 bdftush 和 kupdated 两 个 线程 共同 完成 。 

当 可 用 内 存 过 低 时 ，bdflush 内 核 线程 在 后 台 执 行 脏 页 回 写 操作 。 类 似 flusher， 它 也 有 一 
组 国 值 参数 ， 当 系统 中 空间 内 存 衫 耗 到 特定 浆 值 [ 下 时 ，bdflush 线程 就 被 wakeup_bdflush() 
函数 唤醒 。 

bdflush 和 当前 的 flusher 线程 之 间 存 在 两 个 主要 区 别 。 第 一 个 区 别 是 系统 中 只 有 一 个 bdflush 
后 台 线 程 ， 而 flusher 线程 的 数目 却 是 根据 磁盘 数量 变化 的 〈 这 在 16.5 节 中 会 谈 到 ) ; 第 二 个 区 别 
是 bdflush 线程 基于 缓冲 ， 它 将 脏 缓冲 写 回 磁盘 。 相 反 ，flusher 线程 基于 页 面 ， 它 将 整个 脏 页 写 
回 磁盘 。 当 然 ， 页 面 可 能 包含 缓冲 ， 但 是 实际 UO 操作 对 象 是 整 页 ， 而 不 是 块 。 因 为 页 在 内 存 中 
是 更 普遍 和 普通 的 概念 ， 所 以 管理 页 相 比 管理 块 要 简单 。 

因为 只 有 在 内 存 过 低 和 缓冲 数量 过 大 时 ，bdftush 例 程 才 刷新 缓冲 ， 所 以 kupdated 例 程 被 引 
和 人 入， 以便 周期 地 写 回 脏 页 。 它 和 pdflush 线程 的 wb_writeback() 函数 提供 同样 的 服务 。 

在 2.6 内 核 中 ，buflush 和 kupdated 已 让 路 给 了 pdflush 线程 一 一 page dirty fush (上 比 以 前 
两 个 更 容易 令 人 混 请 的 名 字 ) 的 缩写 。Pdflush 线程 的 执行 和 今天 的 flusher 线程 类 似 。 其 主要 
区 别 在 于 ，pdflush 线程 数目 是 动态 的 ， 默 认 是 2 个 到 8 个 ， 具 体 多 少 取决 于 系统 IO 的 负载 。 
Pdflush 线程 与 任何 任务 都 无 关 ， 它 们 是 面向 系统 所 有 磁盘 的 全 局 任务 。 这 样 做 的 好 处 是 实现 
人 简单， 可 带 来 的 问题 是 ，pdflush 线程 很 容易 在 拥塞 的 磁盘 上 绊 住 ， 而 现代 硬件 发 生 拥塞 更 是 
家 常 便 饭 。 采 用 每 个 磁盘 一 个 刷新 线程 可 以 使 得 IO 操作 同步 执行 ， 简 化 了 拥塞 逻辑 ， 也 提升 
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了 性 能 。Flusher 线程 在 2.6.32 内 核 系 列 中 取代 了 pdflush 线程 (针对 每 个 磁盘 独立 执行 回 写 操 
作 是 其 和 pdflush 的 主要 区 别 )。 本 市 中 剩 下 部 分 的 讨论 ， 仍 然 适 用 于 pdflush， 而 且 也 适用 于 
所 有 2.6 内 核 系列 。 


16.4.3 ”避免 拥塞 的 方法 : 使 用 多 线程 


使 用 bdflush 线程 最 主要 的 一 个 缺点 就 是 ，bdfiush 仅仅 包含 了 一 个 线程 ， 因 此 很 有 可 能 在 页 
回 写 任务 很 重 时 ， 造 成 拥塞 。 这 是 因为 单一 的 线程 有 可 能 堵塞 在 某 个 设备 的 已 拥塞 请 求 队列 《〈 正 
在 等 待 将 请 求 提 交 给 磁盘 的 IO 请 求 队列 ) 上 ， 而 其 他 设备 的 请 求 队列 却 没 法 得 到 处 理 。 如 果 系 
统 有 多 个 磁盘 和 较 强 的 处 理 能 力 ， 内 核 应 该 能 使 得 每 个 磁盘 都 处 于 忙 状 态 。 不 幸 的 是 ， 即 使 还 有 
许多 数据 需要 回 写 ， 单 个 的 bdflush 线程 也 可 能 会 堵塞 在 某 个 队列 的 处 理 上 ， 不 能 使 所 有 磁盘 都 
处 于 饱和 的 工作 状态 ， 原 因 在 于 磁盘 的 吞吐 量 是 非常 有 限 的 。 正 是 因为 磁盘 的 否 吐 量 很 有 限 ， 所 
以 如 果 只 有 唯一 线程 执行 页 回 写 操作 ， 那 么 这 个 线程 很 容易 亩 亩 等 待 对 一 个 磁盘 上 的 操作 。 为 了 
避免 出 现 这 种 情况 ， 内 核 需 要 多 个 回 写 线程 并 发 执行 ， 这 样 单 个 设 竺 队列 的 拥塞 就 不 会 成 为 系统 
并 人 虎 了 。 

2.6 内 核 通过 使 用 多 个 flusher 线程 来 解决 上 述 问 题 。 每 个 线程 可 以 相互 独立 地 将 脏 页 刷新 回 
磁盘 ， 而 且 不 同 的 fusher 线程 处 理 不 同 的 设备 队列 。pdflush 线程 策略 中 ， 线 程 数 是 动态 变化 的 。 
每 一 个 线程 试图 尽 可 能 忙 地 从 每 个 超级 块 的 脏 页 链表 中 回收 数据 ， 并 且 写 回 到 磁盘 。pdflush 方 
式 避 免 了 因为 一 个 忙 磁 租 ， 而 使 得 其 余 磁 盘 饥 馈 的 状况 。 通 常情 况 下 这 样 是 不 错 的 ， 但 是 如 果 每 
个 pdflush 线程 在 同一 个 拥塞 的 队列 上 挂 起 了 又 该 如 何 呢 ? 在 这 种 情况 下 ， 多 个 pdflush 线程 可 能 
并 不 比 一 个 线程 更 好 ， 屿 浪费 的 内 存 而 言 就 要 多 许多 。 为 了 减轻 上 述 影响 ，pdfiush 线程 采用 了 
拥塞 回避 策略 : 它们 会 主动 尝试 从 那些 没有 拥塞 的 队列 回 写 页 。 从 而 ，pqdush 线程 将 其 工作 调 
度 开 来 ， 防 止 了 仅仅 欺负 某 一 个 忙碌 设备 。 

这 种 方式 效果 确实 不 错 ， 但 是 拥塞 回避 并 不 完美 。 在 现代 操作 系统 中 ， 因 为 VO 总 线 技术 
和 计算 机 其 他 部 分 相 比 发 展 要 缓慢 得 多 ， 所 以 拥塞 现象 时 常 发 生 一 一 处 理 右 发 展 速 度 遵 循 摩尔 
定理 ， 但 是 硬盘 驱动 器 则 仅仅 比 20 年 前 快 一 点 后 。 要 知道 ， 目 前 除了 pdflush 以 外 ，LO 系统 
中 还 没有 其 他 地 方 使 用 这 种 拥塞 回避 处 理 。 不 过 在 很 多 情况 下 ，pdflush 确实 可 以 避免 癌 特 定 
盘 回 写 的 时 间 和 期 望 时 间 相 比 太 和 久 。 当 前 flusher 线程 模型 〈 目 2.6.32 内 核 系 列 以 后 采用 ) 和 
具体 块 设备 关联 ,所 以 每 个 给 定 线程 从 每 个 给 定 设备 的 胜 页 链表 收集 数据 ， 并 写 回 到 对 应 磁盘 。 
回 写 于 是 更 趋 于 同步 了 ， 而 且 由 于 每 个 磁盘 对 应 一 个 线 程 ， 所 以 线程 也 不 需要 采用 复 汪 的 拥塞 
避免 策略 ， 因 为 一 个 磁盘 就 一 个 线程 操作 。 该 方法 提高 了 IO 操作 的 公平 性 ， 而 且 降 低 了 饥 包 V 
风险 。 

因为 使 用 pdflush 以 及 后 来 的 flusher 线程 提升 了 页 回 写 性 能 。2.6 内 核 系列 相 比 早期 内 核 可 
让 磁盘 利用 更 饱和 。 在 系统 VO 很 重 的 时 候 , flusher 线程 可 以 在 每 个 磁盘 上 都 维护 更 高 的 吞吐 量 。 


16.5 小结 


本 章 中 我 们 看 到 了 Linux 的 页 高 速 缓存 和 页 回 写 。 了 解 了 内 核 如 何 通过 页 缓存 执行 页 VO 操 
作 以 及 这 些 页 高 速 缓存 〈 通 过 存储 数据 在 内存 中 ) 可 以 利用 减少 磁盘 VO， 从 而 极 大 地 提升 系统 
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的 性 能 。 我 们 讨论 了 通过 称 为 “ 回 写 缓存 ”的 进程 维护 在 缓存 中 的 更 新 页 面 一 一 具体 做 法 是 标记 
内 存 中 的 页 面 为 脏 ， 然 后 找 时 机 延迟 写 到 磁盘 中 。Flusher 内 核 线程 将 负责 处 理 这 些 最 终 的 页 回 
写 操作 。 

通过 最 近 几 章 的 学 习 ， 你 应 该 已 经 对 内 存 与 文件 系统 有 了 深刻 认识 ， 那 么 接 下 来 我 们 将 进入 
模块 专题 ， 去 学 习 Linux 的 设备 驱动 以 及 内 核 如 何 被 模块 化 、 在 运行 时 插 人 和 删除 内 核 代 码 的 动 
态 机 制 。 


第 4 了 章 
设备 与 模块 


在 本 章 中 ， 关 于 设备 驱动 和 设备 管理 ， 我 们 讨论 四 种 内 核 成 分 。 

"设备 类 型 : 在 所 有 Unix 系统 中 为 了 统一 普通 设备 的 操作 所 采用 的 分 类 。 

* 模块 : Linux 内 核 中 用 于 按 需 加 载 和 印 载 目标 码 的 机 制 。 

* 内 核对 象 : 内 核 数据 结构 中 支持 面向 对 象 的 简单 操作 ， 还 支持 维护 对 象 之 间 的 父子 关系 。 
* sysfs : 表示 系统 中 设备 树 的 一 个 文件 系统 。 


17.1 设备 类 型 


在 Linux 以 及 所 有 Unix 系统 中 ， 设 备 被 分 为 以 下 三 种 类 型 : 

* 块 设备 

* 字符 设备 

* 网 络 设备 

块 设备 通常 缩写 为 blkdev， 它 是 可 寻 址 的 ， 寻 址 以 块 为 单位 ， 块 大 小 随 设 备 不 同 而 不 同 ; 块 
设备 通常 支持 重 定 位 (seeking) 操作 ， 也 就 是 对 数据 的 随机 访问 。 块 设备 的 例子 有 硬盘 、 蓝 光 
光碟 ， 还 有 如 Flash 这 样 的 存储 设备 。 块 设备 是 通过 称 为 “ 块 设 备 节点 ”的 特殊 文件 来 访问 的 ， 
并 且 通 常 被 挂 载 为 文件 系统 。 我 们 在 第 13 章 已 经 讨论 过 了 文件 系统 ， 在 第 14 章 已 经 讨论 过 了 
块 设备 。 

字符 设备 通常 缩写 为 cdev, 它 是 不 可 寻 址 的 ， 仪 提供 数据 的 流 式 访问 ， 就 是 一 个 个 字符 ,或 
者 一 个 个 字 证 。 字 符 设 备 的 例子 有 和 键盘、 鼠标 、 打 印 机 ， 还 有 大 部 分 伪 设 备 。 字 符 设备 是 通过 称 
为 “字符 设备 节点 ”的 特殊 文件 来 访问 的 。 与 块 设 备 不 同 ， 应 用 程序 通过 直接 访问 设备 节点 与 字 
符 设 备 交 互 。 

网 络 设备 最 常见 的 类 型 有 时 也 [以 以 太 网 设备 (ethernet devices) 来 称呼 ， 它 提供 了 对 网 络 〈 例 
如 Internet) 的 访问 ， 这 是 通过 一 个 物理 适配器 ( 如 你 的 膝 上 型 计算 机 的 802.11 卡 ) 和 一 种 特定 
的 协议 (如 IP 协议 ) 进行 的 。 网 络 设备 打破 了 Unix 的 “所 有 东西 都 是 文件 ”的 设计 原则 ， 它 不 
是 通过 设备 节点 来 访问 ， 而 是 通过 套 接 字 API 这 样 的 特殊 接口 来 访问 。 

Linux 还 提供 了 不 少 其 他 设备 类 型 ， 但 都 是 针对 单个 任务 ， 而 非 通用 的 。 一 个 特例 是 “杂项 
设备 ”(miscellaneous device)， 通 常 简写 为 miscdev， 它 实际 上 是 个 简化 的 字符 设备 。 杂 项 设备 使 
驱动 程序 开发 者 能 够 很 容易 地 表示 一 个 简单 设备 一 一 实际 上 是 对 通用 基本 架构 的 一 种 折 中 。 

并 不 是 所 有 设备 驱动 都 表示 物理 设备 。 有 些 设备 驱动 是 虚拟 的 ， 仅 提供 访问 内 核 功能 而 
已 。 我 们 称 为 “ 伪 设 备 ”(pseudo device)， 最 第 见 的 如 内 核 随机 数 发 生 器 (通过 /dev/random 
和 /dev/urandom 访问 )、 空 设备 (通过 /dev/null 访问 )、 零 设备 (通过 /dev/zero 访问 )、 注 设备 
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(通过 /dev/full 访问 )， 还 有 内 存 设备 (通过 /dev/mem 访问 )。 然 而 ， 大 部 分 设备 驱动 是 表示 物 
理 设备 的 。 


17.2 模块 


尽管 Linux 是 “ 单 块 内 核 ”(monolithic) 的 操作 系统 一 一 这 是 说 整个 系统 内 核 都 运行 于 一 个 
单独 的 保护 域 中 ， 但 是 Linux 内 核 是 模块 化 组 成 的 ， 它 允许 内 核 在 运行 时 动态 地 向 其 中 插入 或 从 
中 删除 代码 。 这些 代 码 〈 包 括 相 关 的 子 例 程 、 数 据 、 函 数 人 口 和 函数 出 口 ) 被 一 并 组 合 在 一 个 单 
独 的 二 进 制 镜像 中 ， 即 所 谓 的 可 装载 内 核 模块 中 ， 或 简称 为 模块 。 支 持 模块 的 好 处 是 基本 内 核 镜 
像 可 以 尽 可 能 地 小 ， 因 为 可 选 的 功能 和 驱动 程序 可 以 利用 模块 形式 再 提供 。 模 块 允 许 我 们 方便 地 
删除 和 重新 载 人 内 核 代 码 ， 也 方便 了 调试 工作 。 而 且 当 热 插 拔 新 设备 时 ， 可 通过 命令 载 人 新 的 驱 
动 程序 。 

本 章 我 们 将 探寻 内 核 模块 的 奥秘 ， 同 时 也 学 习 如 何 编写 自己 的 内 核 模 块 。 


17.2.1 Hello，World 


与 开发 我 们 已 经 讨论 过 的 大 多 数 内 核 核心 子 系统 不 同 ， 模 块 开发 更 接近 编写 新 的 应 用 系统 ， 
因为 至 少 在 模块 文件 中 具有 入 口 和 出 口 点 。 

虽然 编写 “Hello，World” 程 序 作为 实例 实 属 陈 词 滥 调 了 ， 但 它 的 确 很 让 人 喜爱 。 内 核 模块 
Hello，World 出 场 了 : 


站 
* hello.c The Hello，Worldl 我 们 的 第 一 个 内 核 模块 
*/ 


#include <linux/init.h> 

#include <linux/module.h> 

#include <linux/kernel.h> 

让 

* hello_init 一 初始 化 函数 ， 当 模块 装载 时 被 调用 ， 如 果 成 功 装 载 返 回 零 ， 理 
* 则 返回 非 零 值 

*/ 

static int hello init (void) 

{ 


Printk (KERN ALERT "I bear a charmed life.\n"); 


return D0; 
} 
站 
* hello_exit 一 退出 函数 ， 当 模块 印 载 时 被 调用 
“ 


static void hello exit (void) 


Printk (KERN ALERT "Out, out, brief candle!\n'); 


} 


module init(hello init); 
module exit (hello exit); 
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MODULE LICENSE ("GPL"™Y ; 

MODULE AUTHOR ("Shakespeare"); 

MODULE DESCRIPTION ("A Hello, World Module"); 

这 大 概 是 我 们 所 能 见 到 的 最 简单 的 内 核 模块 了 ，hello_init0 函数 是 模块 的 人 人 口 点 ， 它 通过 
module_init() 例 程 注册 到 系统 中 ， 在 内 核 装载 时 被 调用 。 调 用 module_init0 实际 上 不 是 真正 的 国 
数 调用 ， 而 是 一 个 宏 调 用 ， 它 唯一 的 参数 便 是 模块 的 初始 化 函数 。 模 块 的 所 有 初始 化 函数 必须 符 
合 下 面 的 形式 ; 


int my init {void); 


因为 init 函数 通常 不 会 被 外 部 函数 直接 调用 ， 所 以 你 不 必 导 出 该 函数 ， 故 它 可 标记 为 static 
类 型 。 

init 函数 会 返回 一 个 int 型 数值 ， 如 果 初 始 化 〈 或 你 的 init 国 数 想 做 的 事情 ) 顺利 完成 ， 那 
么 它 的 返回 值 为 才 ; 否则 返回 一 个 非 零 值 。 

这 个 init 函数 仅仅 打印 了 一 条 简单 的 消息 ， 然 后 返回 零 。 在 实际 的 模块 中 ，init 函数 还 会 注 
册 资 源 、 初 始 化 硬件 、 分 配 数据 结构 等 。 如 果 这 个 文件 被 静 访 编译 进 内 核 映 像 中 ， 其 init 函数 将 
存放 在 内 核 映像 中 ， 并 在 内 核 启 动 时 运行 。 | 

hello_exit0 国 数 是 模块 的 出 口 函 数 ， 它 由 module_exit0 例 程 往 册 到 系统 。 在 模块 从 内 存 鲫 
载 时 ， 内 核 便 会 调用 hello_exitD。 退 出 国 数 可 能 会 在 返回 前 负责 清理 资源 ， 以 保证 硬件 处 于 一 致 
状态 ; 或 者 做 其 他 的 一 些 操作 。 简 单 说 来 ，exit 函数 负责 对 init 函数 以 及 在 模块 生命 周期 过 程 中 
所 做 的 一 切 事情 进 行 撤销 工作 ， 基 本 上 就 是 请 理工 作 。 在 退出 函数 返回 后 ， 模 块 就 被 印 载 了 。 

退出 函数 必须 符合 以 下 形式 : 

void my exit (void); 

与 init 函数 一 样 ， 你 也 可 以 标记 其 为 static。 

如 果 上 述 文件 被 静态 地 编译 到 内 核 映 像 中 ， 那 么 退出 函数 将 不 被 包含 ， 而 且 水 远 都 不 会 被 调 
用 《因为 如 果 不 是 编译 成 模块 的 话 ， 那 么 代码 就 不 需 从 内 核 中 印 载 )。 

MODULE_LICENSEO 宏 用 于 指定 模块 的 版 权 。 如 果 载 人 非 GPL 模块 到 系统 内 存 , 则 会 在 
内 核 中 设置 被 污染 标识 一 一 这 个 标识 只 起 到 记录 信息 的 作用 。 版 权 许 可 证 具有 两 大 目的 。 首 先 ， 
它 具 有 通告 的 目的 。 当 oops 中 设置 了 被 污染 的 标识 时 ， 很 多 内 核 开 发 者 对 bug 的 报告 缺乏 信任 ， 
因为 他 们 认为 二 进 制 模块 〈 也 就 是 开发 者 不 能 调试 它 ) 被 装载 到 了 内 核 。 其 次 , 非 GPL 模块 不 
能 调用 GPL_only 符号 ， 本 章 后 续 的 “导出 符号 表 ” 一 节 将 对 其 加 以 描述 。 

最 后 还 要 说 明 ，MODULE AUTHORO 宏和 MODULE DESCRIPTION() 宏 指 定 了 代码 作者 
和 模块 的 简要 描述 , 它们 完全 是 用 作 信 息 记 录 目 的 。 


17.2.2 构建 模块 


在 2.6 内 核 中 ， 由 于 采用 了 新 的 “kbuild” 构 建 系 统 ， 现 在 构建 模块 相 比 从 前 更 加 容易 。 构 
建 过 程 的 第 一 步 是 决定 在 哪里 管理 模块 源码 。 你 可 以 把 模块 源码 加 入 到 内 核 源 代码 树 中 ， 或 者 是 
作为 一 个 补丁 或 者 是 最 终 把 你 的 代码 合并 到 正式 的 内 核 代码 树 中 ; 另 一 种 可 行 的 方式 是 在 内 核 源 
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代码 树 之 外 维护 和 构建 你 的 模块 源码 。 

1. 放 在 内 核 源 代码 树 中 

最 理想 的 情况 莫 过 于 你 的 模块 正式 成 为 Linux 内 核 的 一 部 分 ， 这 样 就 会 被 存放 和 内核 源 代码 
树 中 。 把 你 的 模块 代码 正确 地 置 于 内 核 中 ， 开 始 的 时 候 难 免 需要 更 多 的 维护 ， 但 这 样 通 常 是 一 劳 
永和 逸 的 解决 之 道 。 

当 你 块 定 了 把 你 的 模块 放 人 内 核 源 代码 树 中 ， 下 一 步 要 清楚 你 的 模块 应 在 内 核 源 代码 树 中 
处 于 何 处 。 设 备 驱 动 程序 存放 在 内 核 源码 树 根 目录 下 /drivers 的 子 目 录 下 ， 在 其 内 部 ， 设 备 驱动 
文件 被 进一步 按照 类 别 、 类 型 或 特殊 驱动 程序 等 更 有 序 地 组 织 起 来 。 如 字符 设备 存在 于 drivers/ 
char 目录 下 ， 而 块 设备 存放 在 drivers/block/ 目录 下 ，USB 设备 则 存放 在 drivers/usb/ 目录 下 。 文 
件 的 具体 组 织 规则 并 不 须 绝 对 墨守成规 ， 不 容 打 破 ， 你 可 看 到 许多 USB 设备 也 属于 字符 设备 。 
但 是 不 管 怎么 样 ， 这 些 组 织 关 系 对 我 们 来 说 相当 容易 理解 ， 而 且 很 也 准确 。 

假定 你 有 一 个 字符 设备 , 而 且 希 望 将 它 存 放 在 drivers/char 目录 下 ， 那 么 要 注意 ， 在 该 目录 
下 同时 会 存在 大 量 的 C 源 代码 文件 和 许多 其 他 目录 。 所 以 对 于 仅仅 只 有 一 两 个 源 文 件 的 设备 驱 
动 程序 ， 可 以 直接 存放 在 该 目录 下 ; 但 如 果 驱 动 程序 包含 许多 源 文件 和 其 他 辅助 文件 ， 那 么 可 以 
创建 一 个 新 子 目录 。 这 期 间 并 没有 什么 金 科 玉 律 。 假 设想 建立 自己 代码 的 子 目录 ， 你 的 驱动 程序 
是 一 个 钓鱼 党 和 计算 机 的 接口 ， 名 为 Fish Master XL 3000， 那 么 你 需要 在 drivers/char/ 目录 下 建 
了 一 个 名 为 fshing 的 子 目录 。 

接 下 来 需要 向 drivers/char/ 下 的 Makefile 文件 中 添加 一 行 。 编 辑 derivers/char/Makefile/ 并 加 入 : 

obj -m += fishing/ 

这 行 编译 指令 告诉 模块 构建 系统 ， 在 编译 模块 时 需要 进入 fishing/ 子 目 录 中 。 更 可 能 发 生 
的 情况 是 ， 你 的 驱动 程序 的 编译 取决 于 一 个 特殊 配置 选项 ; 比如 ， 可 能 的 CONFIG_FISHING _ 
POLE ‘请 看 17.2.6 市 ， 它 会 告诉 你 如 何 加 入 一 个 新 的 编译 选项 )。 如 果 这 样 ， 你 需要 用 下 面 的 指 
令 代 替 刚 才 那 条 指令 : 

obj-$ {CONFIG FISHING POLE) += fishing/ 

最 后 ， 在 drivers/char/fishing/ 下 ， 需 要 添加 一 个 新 Makefile 文件 ， 其 中 需要 有 下 面 这 行 指令 : 

obj-m += fishing.o | 

一 切 就 结 了 ， 此 刻 构建 系统 运行 将 会 进入 fishing/ 目录 下 ， 并 且 将 fishing.c 编译 为 fishing.ko 
模块 。 虽 然 你 写 的 扩展 名 是 .0， 但 是 模块 被 编译 后 的 扩展 名 却 是 .ko。 

再 一 个 可 能 ， 要 是 你 的 钓鱼 笔 驱 动 程序 编译 时 有 编译 选项 ， 那 么 你 可 能 需要 这 么 来 做 : 

obj-$ (CONFIG FISHING POLE) += fishing.o 

以 后 ， 假 如 你 的 钓鱼 竿 驱动 程序 需要 更 加 智能 化 一 一 它 可 以 自动 检测 钓鱼 线 ， 这 可 是 最 新 的 
旬 竺 “ 必 备 要 求 ” 呀 。 这 时 驱动 程序 源 文件 可 能 就 不 再 只 有 一 个 了 。 别 怕 ， 朋 友 ， 你 只 要 把 你 的 
Makefile 做 如 下 修改 就 可 搞定 : 


Obj]-${(CONFIG FISHING POLE) += fishing.o 
fishing-objs := fishing-main.o fishing-line.o 
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每 当 设 置 了 CONFIG FISHING POLE,，fishing-main.c 和 fishing-line.c 就 一 起 被 编译 和 连接 
到 | fishing.ko 模块 内 。 

最 后 一 个 注意 事项 古 ， 在 构建 文件 时 你 可 能 需要 额外 的 编译 标记 ， 如 果 这 样 ， 你 只 需 在 
Makefile 中 添加 如 下 指令 : 


EXTRA CFLAM3S += -DTITANIUM POLE 


如 果 喜 欢 把 你 的 源 文件 置 于 drivers/char 目录 下 ， 并 且 不 建立 新 目录 的 话 ， 那 么 你 要 做 的 便 
是 将 前 面 提 到 的 行 ( 也 就 是 原来 处 于 drivers/char/fishing/ 下 你 自己 的 Makefile 中 的 ) 都 加 入 到 
drivers/char/Makefile 中 。 

开始 编译 吧 ， 运 行内 核 构建 过 程 和 原来 一 样 。 如 果 你 的 模块 编译 取决 于 配置 选项 ， 比 如 有 
CONFIG_FISHING_POLE 约束 ， 那 么 在 编译 前 首先 要 确保 选项 被 允许 。 

2. 放 在 内 核 代 码 外 

如 果 你 喜欢 脱离 内 核 源 代 码 树 来 维护 和 构建 你 的 模块 ， 把 自己 作为 一 个 圈 外 人 人 ， 那 你 要 做 的 
就 是 在 你 自己 的 源 代码 树 目录 中 建立 一 个 Makefile 文件 ， 它 只 需要 一 行 指令 : 


obj-m := fishing.os 


这 条 指令 就 可 把 fishing.c 编译 成 fishing.ko。 如 果 你 有 多 个 源 文件 ， 那 么 用 两 行 就 足够 : 


bj-m := fishing .os 
fishing-objs := fishing-main.o fishing-line.o 


这 样 一 来 ，fishing-main.c 和 fishing-line.c 就 一 起 被 编译 和 连接 到 fishing.ko 模块 内 了 。 
模块 在 内 核 内 和 在 内 核 外 构建 的 最 大 区 别 在 于 构建 过 程 。 当 模块 在 内 核 源 代码 树 外 围 时 ， 你 
必须 告诉 make 如 何 找 到 内 核 源 代码 文件 和 基础 Makefile 文件 。 不 过 要 完成 这 个 工作 同样 不 难 ; 


make -CC /kernel/source/location SUBDIRS=S$PWD modules 


在 这 个 例子 中 ，/ kernel/source/location 是 你 配置 的 内 核 源 代码 树 。 回 想 一 下 ， 不 要 把 要 处 理 
的 内 核 源 代 码 树 放 在 /usr/src/linux 下 ， 而 要 移 到 你 home 目录 下 某 个 方便 访问 的 地 方 。 


17.2.3 ”安装 模块 


编译 后 的 模块 将 被 装 入 到 目录 /lib/modules/version/kemel/ 下 ， 在 kernel 目录 下 的 每 一 个 目 
录 都 对 应 着 内 核 源码 树 中 的 模块 位 置 。 如 果 使 用 的 是 2.6.34 内 核 ， 而 且 将 你 的 模块 源 代码 直接 
放 在 drivers/char 下， 那么 编译 后 的 钓鱼 午 驱 动 程序 的 存放 路 径 将 是 : /lib/modules/2.6.34/kernel/ 
drivers/char/fishing.ko 。 

下 面 的 构建 命令 用 来 安装 编译 的 模块 到 合适 的 目录 下 : 

make modules install 


通常 需要 [以 root 权限 运行 。 


17.2.4 产生 模块 依赖 性 
Linux 模块 之 间 存 在 依赖 性 ， 也 就 是 说 钓鱼 模块 依赖 于 鱼饵 模块 ， 那 么 当 你 载 人 钓鱼 模块 
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时 ， 鱼 饵 模 块 会 被 自动 载 人 。 这 里 需要 的 依赖 信息 必须 事先 生成 。 多 数 Linux 发 布 版 都 能 自动 产 
生 这 些 依赖 关系 信息 ， 而 且 在 每 次 启动 时 更 新 。 若 想 产生 内 核 依赖 关系 的 信息 ，root 用 户 可 运行 
命令 


depmod 


为 了 执行 更 快 的 更 新 操作 ， 那 么 可 以 只 为 新 模块 生成 依赖 信息 ， 而 不 是 生成 所 有 的 依赖 关 
系 ， 这 时 root 用 户 可 运行 命令 


depmod -A 


模块 依 款 关系 信息 存放 在 /ib/modules/version/modules.dep 文件 中 。 


17.2.5 载 入 模块 


载 入 模块 最 简单 的 方法 是 通过 insmod 命令 ， 这 是 个 功能 很 有 限 的 命令 ， 它 能 做 的 就 是 请 求 
内 核 载 人 指定 的 模块 。insmod 程序 不 执行 任何 依赖 性 分 析 或 进一步 的 错误 检查 。 它 用 法 简单 ， 
以 root 身份 运行 命令 ; 


insmod module. ko 


这 里 ，module.ko 是 要 载 人 的 模块 名 称 。 比 如 装载 钓鱼 竺 模块 ， 那 你 就 执行 命令 : 


insmod fishing,.ko 


类 似 的 ， 捷 载 一 个 模块 ， 你 可 使 用 rmmod 命令 ， 它 同样 需要 | root 身份 运行 : 


rmmod module 


比如 ，rmmod fishing 命令 将 印 载 钓鱼 笔 模块 。 
rmmod fishing 
这 两 个 命令 是 很 简单 ， 但 是 它们 一 点 也 不 智能 。 先 进 工 具 modprobe 提供 了 模块 依赖 性 分 


析 、 错 误 智能 检查 、 错 误 报告 以 及 许多 其 他 功能 和 选项 。 我 强烈 建议 大 家 用 这 个 命令 。 
为 了 在 内 核 via modprobe 中 插 人 模块 ， 需 要 以 root 身份 运行 : 


modprobe module [ module parameters | 


其 中 , 参数 module 指定 了 需要 载 人 的 模块 名 称 ， 后 面 的 参数 将 在 模块 加 载 时 传人 内 核 。( 请 
看 17.2.7 一 节 对 模块 参数 的 讨论 )。 

modprobe 命令 不 但 会 加 载 指定 的 模块 ， 而 且 会 自动 加 载 任 何 它 所 依赖 的 有 关 模 块 。 所 以 说 
它 是 加 载 模块 的 最 佳 机 制 。 

modprobe 命令 也 可 用 来 从 内 核 中 印 载 模块 ， 当 然 这 也 需要 以 root 身份 运行 : 


modprobe - 工 modules 


参数 modules 指定 一 个 或 多 个 需要 全 载 的 模块 。 与 rmmod 命令 不 同 ，modprobe 也 会 印 载 给 
定 模 块 所 依赖 的 相关 模块 ， 但 其 前 提 是 这 些 相 关 模 块 设 有 被 使 用 。Linux 用 户 手 册 第 8 部 分 提供 
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了 上 述 命令 的 使 用 参考 ， 里 面包 括 了 命令 选项 和 用 法 。 


17.2.6 “管理 配置 选项 


在 前 面 的 内 容 中 我 们 看 到 ， 只 要 设置 了 CONFIG FISHING_POLE 配置 选项 ， 钓 鱼 竿 模块 就 
将 被 自动 编译 。 虽 然 配 置 选项 在 前 面 已 经 讨论 过 了 ， 但 这 里 我 们 将 继续 以 钓鱼 竿 驱动 程序 为 例 ， 
再 看 看 一 个 新 的 配置 选项 如 何 加 入 。 . 

由 于 2.6 内 核 中 新 引 人 和 人 了 “kbuild” 系 统 ， 因 此 ， 加 入 一 个 新 配置 选项 现在 可 以 说 是 易 如 反 
掌 。 你 所 需 做 的 全 部 就 是 向 kconfig 文件 中 添加 一 项 ， 用 以 对 应 内 核 源 码 树 。 对 驱动 程序 而 言 ， 
kconfig 通常 和 源 代码 处 于 同一 目录 。 如 果 和 钓鱼 笔 驱 动 程序 在 目录 drivers/char/ 下 ， 那 么 你 便 会 发 
现 drivers/char/kconfig 也 同时 存在 。 

如 果 你 建立 了 一 个 新 子 目录 , 而 且 也 希望 kconfig 文件 存在 于 该 目录 中 的 话 ,那么 你 必须 在 
一 个 已 存在 的 kconfig 文件 中 将 它 引 入 。 你 需要 加 和 人 下面 一 行 指令 : 


SOUrGCEe "drivers/char/fishing/Kconfig" 


这 里 所 谓 存 在 的 Kconfig 文件 可 能 是 drivers/char/Kconfig。 
Kconfig 文件 很 方便 加 入 一 个 配置 选 型 ， 请 看 钓鱼 竿 模块 的 选项 ， 如 下 所 示 : 
config FISHING POLE 
tristate "Fish Maegter 3000 support™ 
default n 
help 
If You say Y here, support for the Fish Master 3000 with computer 
interface will be compiled into the kernel and accessible via a 
device node. You can also say M here and the driver will be built as a 
module named fishing.ko. 


It unsure, say NM. 


配置 选项 第 一 行 定 多 了 该 选项 所 代表 的 配置 目标 。 注 意 CONFIG_ 前缀 并 不 需要 写 上 。 

第 二 行 声 明 选 项 类 型 为 tristate, 也 就 是 说 可 以 编译 进 内 核 (Y)， 也 可 作为 模块 编译 (MD)， 
或 者 干脆 不 编译 它 (N)。 如 果 编 译 选项 代表 的 是 一 个 系统 功能 ， 而 不 是 一 个 模块 ， 那 么 编译 选 
项 将 用 bool 指令 代替 tristate， 这 说 明 它 不 允许 被 编译 成 模块 。 处 于 指令 之 后 的 引号 内 文字 为 该 
选项 指定 了 名 称 。 

， 第 三 行 指定 了 该 选项 的 默认 选择 ， 这 里 默认 操作 是 不 编译 它 (N)。 也 可 以 把 默认 选择 指定 为 编 
译 进 内 核 Y)， 或 者 编译 成 一 个 模块 (M)。 对 驱动 程序 而 言 ， 默 认 选 择 通常 为 不 编译 进 内 核 (N)。 

Help 指令 的 目的 是 为 该 选项 提供 帮助 文档 。 各 种 配置 工具 都 可 以 按 要 求 显示 这 些 帮 助 。 因 
为 这 些 帮 助 是 面向 编译 内 核 的 用 户 和 开发 者 的 ， 所 以 帮助 内 容 简洁 扼要 。 一 般 的 用 户 通常 不 会 编 
译 内 核 , 但 如 果 他 们 想 试 试 ， 往 往 也 能 理解 配置 帮助 的 意思 。 

除了 上 述 选 项 以 外 ， 还 存在 其 他 选项 。 比 如 depends 指令 规定 了 在 该 选项 被 设置 前 , 首先 要 
设置 的 选项 。 假 如 依赖 性 不 满足 , 那么 该 选项 就 被 禁止 。 比 如 , 如 果 你 加 入 指令 : 


depends on FISH TANK 
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到 配置 选项 中 ,那么 就 意味 着 在 CONFIG_FISH TANK 被 选择 前 , 我 们 的 钓鱼 午 模 块 是 不 能 
使 用 的 (Y 或 者 M)。Select 指令 和 depends 类 似 ， 它 们 只 有 一 点 不 同 之 处 一 一 只 要 是 select 指定 
了 谁 ， 它 就 会 强行 将 被 指定 的 选项 打开 。 所 以 这 个 指令 可 不 能 向 depends 那样 滥用 一 通 ， 因 为 它 
会 自动 的 激活 其 他 配置 选项 。 它 的 用 法 和 depends 一 样 。 比 如 : 


Belect BAIT 


意味 着 当 CONFIG_ FISHING_POLE 被 激活 时 ， 配 置 选项 CONFIG_BAIT 必然 一 起 被 激活 。 
如 果 select 和 depends 同时 指定 多 个 选项 ， 那 就 需要 通过 此 上 & 指令 来 进行 多 选 。 使 用 
depends 时 ， 你 还 可 以 利用 叹 号 前 组 来 指明 禁止 某 个 选项 。 比 如 : 


depends on EXAMPLE DRIVERS E !INO FISHING ALLOWED 


这 行 指令 就 指定 驱动 程序 安装 要 求 打开 CONFIG_ EXAMPLE_DRIVERS 选项 ， 同 时 要 禁止 
CONFIG NO FISHING ALLOWED 选项 。 

tristate 和 bool 选项 往往 会 结合 让 指令 一 起 使 用 ， 这 表示 某 个 选项 取决 于 另 一 个 配置 选项 。 
如 果 条 件 不 满足 ， 配 置 选项 不 但 会 被 禁止 ， 甚 至 不 会 显示 在 配置 工具 中 ， 比 如 , 要 求 配置 系统 只 
有 在 CONFIG_x86 配置 选项 设置 时 才 显 示 某 选项 。 请 看 下 面 指令 : 


bool "Deep Sea Mode" if OCEAN 


于 指令 也 可 与 default 指令 结合 使 用 ， 强 制 只 有 在 条 件 满足 时 default 选项 才 有 效 。 

配置 系统 导出 了 一 些 元 选项 (meta-option) 以 简化 生成 配置 文件 。 比 如 选项 CONFIG _ 
EMBEDDED 是 用 于 关闭 那些 用 户 想 要 禁止 的 关键 功能 〈 比 如 要 在 民 人 系统 中 节省 珍贵 的 内 存 ) : 
选项 CONFIG_BROKEN_ON_SMP 用 来 表示 驱动 程序 并 非 多 处 理 器 安全 的 。 通 常 该 项 不 应 设置 ， 
标记 它 的 目的 是 确保 用 户 能 知道 该 驱动 程序 的 弱点 。 当 然 ， 新 的 驱动 程序 不 应 该 使 用 该 标志 。 最 
后 要 说 明 CONFIG_EXPERIMENTAL 选项 ， 它 是 一 个 用 于 说 明 某 项 功能 尚 在 试验 或 处 于 beta 版 
阶段 的 标志 选项 。 该 选项 默认 情况 下 关闭 ， 同 样 ， 标 记 它 的 目的 是 为 了 让 用 户 在 使 用 驱动 程序 前 
明日 克 在 风险 。 


17.2.7 模块 参数 


Linux 提供 了 这 样 一 个 简单 框架 一 一 它 可 允许 驱动 程序 声明 参数 ， 从 而 用 户 可 以 在 系统 启动 
或 者 模块 装载 时 出 指定 参数 值 ， 这 些 参 数 对 于 驱动 程序 属于 全 局 变量 。 值 得 一 提 的 是 模块 参数 同 
时 也 将 出 现在 sysfs 文件 系统 中 〈 见 本 章 后 面 的 介绍 )， 这 样 一 来 ， 无 论 是 生成 模块 参数 ， 还 是 管 
理 模块 参数 的 方式 都 变 得 灵活 多 样 了 。 

定义 一 个 模块 参数 可 通过 宏 module_param() 完成 : 


module paramlname, type, perm):; 


参数 name 既是 用 户 可 见 的 参数 名 ， 也 是 你 模块 中 存放 模块 参数 的 变量 名 。 参 数 type 则 存放 
了 参数 的 类 型 ， 它 可 以 是 byte、short、ushort、int、uint、long、ulong、charmp 、bool 或 invbool， 
它们 分 别 代 表 字 节 型 、 短 整 型 、 无 符号 短 整 形 、 整 型 、 无 符号 整 型 、 长 整形 、 无 符号 长 整 型 、 字 
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符 指 针 、 布 尔 型 ， 以 及 应 用 户 要 求 转换 得 来 的 布尔 型 。 其 中 byte 类 型 存放 在 char 类 型 变量 中 ， 
boolean 类 型 存放 在 int 变量 中 ， 其 余 的 类 型 都 一 致 对 应 C 语言 的 变量 类 型 。 最 后 一 个 参数 perm 
指定 了 模块 在 sysfs 文件 系统 下 对 应 文件 的 权限 ， 读 值 可 以 是 八进制 的 格式 ， 比 如 0644 (所 有 者 
可 以 读 写 ， 组 内 可 以 读 ， 其 他 人 可 以 读 ) ; 或 是 S_Ifoo 的 定义 形式 ， 比 如 S_IRUGO | S_IWUSR 
(任何 人 可 读 ，user 可 写 ) ; 如 果 该 值 是 等 ， 则 表示 禁止 所 有 的 sysfs 项 。 

上 面 的 宏 其 实 并 没有 定义 变量 ， 你 必须 在 使 用 该 宕 前 进行 变量 定义 。 通 常 使 用 类 似 下 面 的 语 

完成 定义 : 

/* 在 模块 参数 控制 下 ， 我 们 允许 在 钓鱼 竿 上 用 医 鱼饵 */ 

static int allow live bait = 1; /1* 默认 功能 允许 */ 

module param{(lallow live bait, bool, 0644); /* 一 个 Boolean 类 型 */ 

这 个 值 处 于 模块 代码 文件 外 部 ， 换 句 话说 ，allow_live_bait 是 个 全 局 变量 。 

有 可 能 模块 的 外 部 参数 名 称 不 同 于 它 对 应 的 内 部 变量 名 称 ， 这 时 就 该 使 用 宏 module_param_ 
named() 定义 了 : 


module param named (name, variable, type, perm); 


参数 name 是 外 部 可 见 的 参数 名 称 ， 参 数 variable 是 参数 对 应 的 内 部 全 局 变量 名 称 。 比 如 : 


static unsigned int max test = DEFAULT MAX LINE TEST 
module param named (maximum line test, max test, int, 0); 


通常 ， 需 要 用 一 个 charp 类 型 来 定义 模块 参数 (一 个 字符 申 )， 内 核 将 用 户 提 供 的 这 个 字符 
串 拷贝 到 内 存 ， 而 且 将 变量 指向 该 字符 串 。 比 如 : 


static char *name; 
module param(name, charp, 0); 


如 果 需 要 ， 也 可 使 内 核 直 接 找 贝 字符 申 到 指定 的 字符 数组 。 宏 module_param_string0 可 完 
成 上 述 任务 : 


module param string(name, string, len, perm); 


这 里 参数 name 为 外 部 参数 名 称 ， 参 数 string 是 对 应 的 内 部 变量 和 名称， 参数 len 是 string 命 
名 缓冲 区 的 长 度 (或 更 小 的 长 讼 ， 但 是 没什么 太 大 的 意义 )， 参 数 perm 是 sysfs 文件 系统 的 访问 
权限 (如 果 为 零 ， 则 表示 完全 禁止 sysfs 项 )， 比 如 : 


static char species [BUF LEN]; 
module param string(specifies, Bpecies, BUF LEN, 0); 


你 可 接受 逗号 分 隔 的 参数 序列 ， 这 些 参数 序列 可 通过 宏 module_param_array() 存储 在 C 数 
组 中 : 


module param array (name, type, nump, perm);} 


参数 name 仍然 是 外 部 参数 以 及 对 应 内 部 变量 名 ， 参 数 type 是 数据 类 型 ， 参 数 perm 是 sysfs 
文件 系统 访问 权限 ， 这 里 新 参数 是 nump， 它 是 一 个 整 型 指针 ， 该 整 型 存放 数组 项 数 。 注 意 由 参 
数 name 指定 的 数组 必须 是 静态 分 配 的 ， 内 核 需要 在 编译 时 确定 数组 大 小 ， 从 而 保证 不 会 造成 溢 
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出 。 读 函数 用 法 相当 简单 ， 比 如 : 
static int fish [MAX FISH]; 
static int nr fish; 
module param array lfish, int, &nr fish, 0444);} 
你 可 以 将 内 部 参数 数组 命名 区 别 于 外 部 参数 ， 这 时 你 需 使 用 宏 : 
module param array named (name, array, type, nump, perm); 
其 中 参数 和 其 他 宏一 致 。 
最 后 ， 你 可 使 用 MODULE PARM_DESCO 描述 你 的 参数 : 


Btatic unsigned short gsize = 工 ; 
module param(size, ushort, 0644); 
MODULE PARM DESC(size, "The size in inches of the fishing pole.").，} 


上 述 所 有 宏 需 要 包含 <linux/module.h> 头 文件 。 
17.2.8 导出 符号 表 


模块 被 载 人 后 ， 就 会 被 动态 地 连接 到 内 核 。 注 意 ， 它 与 用 户 空间 中 的 动态 链接 库 类 似 ， 只 有 
当 被 显 式 导 出 后 的 外 部 函数 ， 才 可 以 被 动态 库 调用 。 在 内 核 中 ， 导 出 内 核 立 数 需要 使 用 特殊 的 指 
令 : EXPORT SYMBOLO 和 EXPORT SYMBOL GPLO。 

导出 的 内 核 函 数 可 以 被 模块 调用 ， 而 未 导出 的 函数 模块 则 无 潜 被 调用 。 模 块 代码 的 链接 和 调 
用 规则 相 比 核心 内 核 镜像 中 的 代码 而 言 ， 要 更 加 严格 。 核 心 代码 在 内 核 中 可 以 调用 任意 非 静 态 接 
口 ， 因 为 所 有 的 核心 源 代 码 文 件 被 链接 成 了 同一 个 镜像 。 当 然 ， 被 导出 的 符号 表 所 含 的 函数 必然 
也 要 是 非 静 态 的 。 

导出 的 内 核 符号 表 被 看 做 导出 的 内 核 接口 ， 甚 至 称 为 内 核 API。 导 出 符号 相当 简单 ， 在 声明 
函数 后 ， 紧 跟 上 EXPORT_SYMBOL() 指令 就 搞定 了 ， 比 如 : 

和 get pirate beard color - 返回 当前 priate 胡须 的 颜色 ， 

Sg 是 一 个 指向 pirate 结构 体 的 指针 ; 颜色 定义 在 文件 <linux/beard colors.h> 中 


int get pirate beard color(struct pirate *p) 
return p->beard.color:; 
EXPORT SYMBOL (get pirate beard color); 
假定 get_pirate_beard_color() 同时 也 定义 在 一 个 可 访问 的 头 文件 中 ， 那 么 现在 任何 模块 都 
可 以 访问 它 。 有 一 些 开 发 者 希望 自己 的 接口 仅仅 对 GPL- 兼容 的 模块 可 见 ， 内 核 连接 器 使 用 
MODULE_LICENSEO 宏 可 满足 这 个 要 求 。 如 果 你 希望 先前 的 函数 仅仅 对 标记 为 GPL 协议 的 模 
块 可 见 ， 那 么 你 就 需要 用 : 


EXPORT SYMBOL GPL (get pirate beard color),; 


如 果 你 的 代码 被 配置 为 模块 ， 那 么 你 就 必须 确保 当 它 被 编译 为 模块 时 ， 它 所 用 的 全 部 接口 都 
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已 被 导出 ， 否 则 就 会 产生 连接 错误 (而 且 模 块 不 能 成 功 编译 )。 


17.3 设备 模型 


2.6 内 核 增加 了 一 个 引 人 注 目的 新 特性 一 一 统一 设备 模型 (device model)。 设 备 模型 提供 了 
一 个 独立 的 机 制 专门 来 表示 设备 ， 并 描述 其 在 系统 中 的 拓扑 结构 ， 从 而 使 得 系统 具有 以 下 优点 : 

" 代码 重复 最 小 化 。 

“提供 诸如 引用 计数 这 样 的 统一 机 制 。 

* 可 以 列举 系统 中 所 有 的 设备 ， 观 察 它们 的 状态 ， 并 且 查 看 它们 连接 的 总 线 。 

* 可 以 将 系统 中 的 全 部 设备 结构 以 树 的 形式 完整 、 有 效 地 展现 出 来 一 一 包括 所 有 的 总 线 和 内 

部 连接 。 

"可 以 将 设备 和 其 对 应 的 驱动 联系 起 来 ， 反 之 亦 然 。 

* 可 以 将 设备 按照 类 型 加 以 归 类 ， 比 如 分 类 为 输入 设备 ， 而 无 需 理解 物理 设备 的 拓扑 结构 。 

“可 以 治 设 备 树 的 叶子 向 其 根 的 方向 依次 遍历 ， 以 保证 能 以 正确 顺序 关闭 各 设备 的 电源 。 

最 后 一 点 是 实现 设备 模型 的 最 初 动机 。 若 想 在 内 核 中 实现 智能 的 电源 管理 ， 就 需要 建立 表示 
系统 中 设备 拓扑 关系 的 树 结构 。 当 在 树 上 端的 设备 关闭 电源 时 ， 内 核 必须 首先 关闭 该 设备 节点 以 
下 的 “处 于 叶子 上 的 〉 设 备 电 源 。 比 如 内 核 需 要 先 关 闭 一 个 USB 鼠标 ， 然 后 才 可 关闭 USB 控制 
器 ; 同样 内 核 也 必须 在 关闭 PCI 总 线 前 先 关闭 USB 控制 器 。 简 而 言 之 ， 若 要 准确 而 又 高 效 地 完 
成 上 述 电源 管理 目标 ， 内 核 无 疑 需要 一 棵 设备 树 。 


17.3.1 kobject 


设备 模型 的 核心 部 分 就 是 kobject (kernel object)， 它 由 struct kobject 结构 体 表 示 , 定义 于 头 
文件 <linux/kebject.h> 中 。kobject 类 似 于 C# 或 Java 这 些 面 向 对 象 语言 中 的 对 象 〈object) 类 ， 
提供 了 诸如 引用 计数 、 名 称 和 父 指针 等 字段 ， 可 以 创建 对 象 的 层次 结构 。 


看 下 面 的 具体 结构 : 

struct kobject I 
const char name; 
struct list head entry} 
struct kobject *parent } 
struct kset 直 克 Bt ; 
struct kobij type tktype; 
struct sysfs dirent sd} 
struct kref kref; 
unsigned int state initialized:1; 
unsigned int satate in syafs:1; 
unaigned int state add uevent sent:1; 
neigned int state remove Uevent gent:1;} 
unsigned int uevent suppress:l1}; 


}; 
name 指针 指向 此 kobject 的 名 称 。 
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parent 指针 指向 kobject 的 父 对 象 。 这 样 一 来 ，kobject 就 会 在 内 核 中 构造 一 个 对 象 层 次 结构 ， 
并 且 可 以 将 多 个 对 象 间 的 关系 表现 出 来 。 就 如 你 所 看 到 的 ， 这 便 是 sysfs 的 真正 面目 : 一 个 用 户 
空间 的 文件 系统 ， 用 来 表示 内 核 中 kobject 对 象 的 层次 结构 。 

sd 指针 指向 sysfs_dirent 结构 体 ， 访 结构 体 在 sysfs 中 表示 的 就 是 这 个 kobject。 从 ys 文件 
系统 内 部 看 ， 这 个 结构 体 是 表示 kobject 的 一 个 inode 结构 体 。 

kref 提供 引用 计数 。ktype 和 kset 结构 体 对 kobject 对 象 进 行 描述 和 分 类 。 在 下 面 的 内 容 中 将 
详细 介绍 它们 。 

kobject 通常 是 幅 入 其 他 结构 中 的 ， 其 单独 意义 其 实 并 不 大 。 相 反 ， 那 些 更 为 重要 的 结构 体 ， 

比如 定义 于 <linux/cdev.h> 中 的 struct cdev 中 才 真 正 需 要 用 到 kobj 结构 。 


/* cdev structure - 该 对 象 代表 一 个 字符 设备 */ 


struct cdev { 


struct kobject kobj; 
struct module WIE ; 
const etruct file operations #OpB; 
struct list head list; 
dev 七 dev; 
unsigned int count ; 


}; 


当 kobject 被 嵌入 到 其 他 结构 中 时 ， 该 结构 便 拥 有 了 kobject 提供 的 标准 功能 。 更 重要 的 一 点 
是 ， 人 嵌入 kobject 的 结构 体 可 以 成 为 对 象 层次 架构 中 的 一 部 分 。 比 如 cdev 结构 体 就 可 通过 其 父 指 
针 cdev->kobj.parent 和 链表 cdev->kobj.entry 插入 到 对 象 层次 结构 中 。 


17.3.2 ktype 


kobject 对 象 被 关联 到 一 种 特殊 的 类 型 ， 即 ktype 〈kemel object type 的 缩写 )。ktype 由 kobj_ 
type 结构 体 表示 ， 定 义 于 头 文件 <linux/kobject.h> 中 : 


struct kobj type { 
void (*releagsge) (struct kobject 去 ) 
const gstruct sysfs ops 二 号 平局 二 号 opas; 
，， struct attribute default attrs; 
ktype 的 存在 是 为 了 描述 一 族 kobject 所 具有 的 普遍 特性 。 如 此 一 来 ， 不 再 需要 每 个 kobject 
都 分 别 定义 自己 的 特性 ， 而 是 将 这 些 普遍 的 特性 在 ktype 结构 中 一 次 定义 ， 然 后 所 有 “同类 ”的 
kobject 都 能 共享 一 样 的 特性 。 
release 指针 指向 在 kobject 引用 计数 减 至 零 时 要 被 调用 的 析 构 函数 。 该 函数 负责 释放 所 有 
kobject 使 用 的 内 存 和 其 他 相关 清理 工作 。 
sysfs_ops 变量 指向 sysfs_ops 结构 体 。 读 结构 体 描述 了 sysfs 文件 读 写 时 的 特性 。 有 关 其 细 
节 参 见 17.3.9 节 。 
最 后 ，default_attrs 指向 一 个 attribute 结构 体 数组 。 这 些 结构 体 定义 了 该 kobject 相关 的 默认 
属性 。 属 性 描述 了 给 定 对 象 的 特征 ， 如 果 访 kobject 导出 到 sysfs 中 ， 那 么 这 些 属性 都 将 相应 地 作 
为 文件 而 导出 。 数 组 中 的 最 后 一 项 必须 为 NULL。 
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17.3.3 kset 


kset 是 kobject 对 象 的 集合 体 。 把 它 看 成 是 一 个 容器 ， 可 将 所 有 相关 的 kobject 对 象 ， 比 如 
“全 部 的 块 设 备 ” 置 于 同一 位 置 。 听 起 来 kset 与 ktype 非常 类 似 ， 好 像 没 有 多 少 实质 内 容 。 那 么 
“为 什么 会 需要 这 两 小 类似 的 东西 呢 ? ”kset 可 把 kobject 集中 到 一 个 集合 中 ， 而 ktype 描述 相关 
类 型 kobject 所 共有 的 特性 ， 它 们 之 间 的 重要 区 别 在 于 : 具有 相同 ktype 的 kobject 可 以 被 分 组 到 
不 同 的 kset。 就 是 说 ， 在 Linux 内 核 中 ， 只 有 少数 一 些 的 ktype， 却 有 多 个 kset。 

kobject 的 kset 指针 指向 相应 的 kset 集 合 。kset 集 合 由 kset 结构 体 表示 ， 定 义 于 头 文件 
<linux/kobject.h> 中 ， 


struct kset I 


atruct list head list; 
apinlock t list lock; 
struct kobject kobj; 


struct kset uevent ops *Uuevent opa; 


}; 


在 这 个 结构 中 ， 其 中 list 连接 该 集合 (kset) 中 所 有 的 kobject 对 象 ，list_lock 是 保护 这 个 链 
表 中 元 素 的 自 旋 锁 (关于 自 旋 锁 的 讨论 ， 详 见 第 10 章 )，kobj 指向 的 koject 对 象 代 表 了 该 集合 的 
基 类 。uevent_ops 指向 一 个 结构 体 一 一 用 于 处 理 集合 中 kobject 对 象 的 热 插 拔 操 作 。uevent 就 是 
用 户 事件 (user event) 的 缩写 ， 提 供 了 与 用 户 空 间 热 播 拔 信息 进行 通信 的 机 制 。 


17.3.4 kobject、ktype 和 kset 的 相互 关系 


上 文 反复 讨论 的 这 一 组 结构 体 很 容易 令 人 温 消 ， 这 可 不 是 因为 它们 数量 繁多 (其 实 只 有 三 
个 )， 也 不 是 它们 太 复 杂 《 它 们 都 相当 简单 )， 而 是 由 于 它们 内 部 相互 交织 。 要 了 解 kobject， 很 
难 只 讨论 其 中 一 个 结构 而 不 涉及 其 他 相关 结构 。 然 而 在 这 些 结 构 的 相互 作用 下 ， 会 更 有 助 你 深刻 
理解 它们 之 间 的 关系 。 

这 里 最 重要 的 家 伙 是 kobject， 它 由 struct koject 表示 。kobject 为 我 们 引信 了 诸如 引用 计数 
(reference counting)、 父 子 关 系 和 对 象 名 称 等 基本 对 象 道 具 ， 并 且 是 以 一 个 统一 的 方式 提供 这 些 
功能 。 不 过 kobject 本 身 意义 并 不 大 ， 通 常情 况 下 它 需 要 被 嵌入 到 其 他 数据 结构 中 ， 让 那些 包含 
它 的 结构 具有 了 kobject 的 特性 。 

kobject 与 一 个 特别 的 ktype 对 象 关 联 ，ktype 由 struct kobj_type 结构 体 表示 ， 在 koject 中 
ktype 字段 指向 读 对 象 。ktype 定义 了 一 些 kobject 相关 的 默认 特性 ; 析 构 行为 ( 反 构 造 功 能 )、 
sysfs 行为 《sysfs 的 操作 表 ) 以 及 别 的 一 些 默 认 属 性 。 

kobject 又 归 入 了 称 作 kset 的 集合 , kset 集合 由 struct kset 结构 体 表 示 。kset 提供 了 两 个 功能 。 
第 一 ， 其 中 嵌 人 的 kobject 作为 kobject 组 的 基 类 。 第 二 ，kset 将 相关 的 kobject 集合 在 一 起 。 在 
sysfs 中 ， 这 些 相 关 的 koject 将 以 独立 的 目录 出 现在 文件 系统 中 。 这 些 相 关 的 目录 ， 也 许 是 给 定 
目录 的 所 有 子 目录 ， 它 们 可 能 处 于 同一 个 kset。 

图 17-1 描述 了 这 些 数据 结构 的 内 在 关系 。 
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于 系统 | “了 于 系统 
ER 
> 区 KK 
> 
A \ 
kobj | 
_ 


1 


图 17-1 kobject、kset 和 子 系统 的 内 在 关系 
17.3.5 ”管理 和 操作 kobject 


当 了 解 了 kobject 的 内 部 基本 细节 后 ， 我 们 来 看 管理 和 操作 它 的 外 部 接口 了 。 多 数 时 候 ， 驱 动 程 
序 开发 者 并 不 必 直 接 处 理 kobject， 因 为 kobject 是 被 赚 和 人 到 一 些 特殊 类 型 结构 体 中 的 (就 如 在 字符 设 
备 结构 体 中 看 到 的 情形 )， 而 且 会 由 相关 的 设备 驱动 程序 在 “幕后 ”管理 。 即 便 如 此 ，kobject 并 不 是 
有 意 在 隐藏 自己 ， 它 可 以 出 现在 设备 驱动 代码 中 ， 或 者 可 以 在 设备 驱动 子 系统 本 身 中 使 用 它 。 

使 用 kobjcet 的 第 一 步 需要 先 来 声明 和 初始 化 。kobject 通过 函数 kobject_init 进行 初始 化 ， 访 
函数 定义 在 文件 <linux/kobject.h> 中 ; 


void kobject init (struct kobject *kobj, struct kobj type *ktype); 


该 函数 的 第 一 个 参数 就 是 需要 初始 化 的 kobject 对 象 ， 在 调用 初始 化 函数 前 ，kobject 必须 清 
空 。 这 个 工作 往往 会 在 kobject 所 在 的 上 屋 结 构 体 初始 化 时 完成 。 如 果 kobject 未 被 清空 ， 那 么 只 
需要 调用 memset0 即 可 : 

memset (kobj, 0, sizeof (*kobj})); 

在 清 零 后 ， 就 可 以 安全 的 初始 化 parent 和 kset 字段 。 例 如 ， 

atruct kobject *kob]j; 

kobj = kmalloclsizeof (*kobj}, GFP FERNEL); 

if (ilkobj) 

return -ENOMEM; 
memset (kobj, 0, sizeof (*kobj})}); 


kobj->kset = my kset; 
kobject init (kobj, my ktypel); 


这 多 步 操作 也 可 以 由 kobject_create() 来 自动 处 理 ， 它 返回 一 个 新 分 配 的 kobject : 
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struct kobject *kobject create (void}.} 


使 用 相当 简单 : 


struct kobject *kobj; 


kobij = kobject createl); 
if (!kobj} 
return -ENOMEM; 


大 多 数 情况 下 ， 应 该 调用 kobject_create( 创建 kobject， 或 者 是 调用 相关 的 辅助 前 数 ， 加 
是 直接 操作 这 个 结构 体 。 


17.3.6 引用 计数 


kobject 的 主要 功能 之 一 就 是 为 我 们 提供 了 一 个 统一 的 引用 计数 系统 。 初 始 化 后 ，kobject 的 
引用 计数 设置 为 1。 只 要 引用 计数 不 为 零 ， 那 么 该 对 象 就 会 继续 保留 在 内 存 中 ， 也 可 以 说 是 被 
“ 钉 住 ”了 。 任 何 包含 对 象 引 用 的 代码 首先 要 增加 该 对 象 的 引用 计数 ， 当 代码 结束 后 则 减少 它 的 
引用 计数 。 增 加 引用 计数 称 为 获得 〈8getting) 对 象 的 引用 ， 减 少 5| 用 计数 称 为 释放 〈putting) 对 
象 的 引用 。 当 引用 计数 跌 到 零 时 ， 对 象 便 可 以 被 撤销 ， 同 时 相关 内 存 也 都 被 释放 。 

1. 递增 和 递减 引用 计数 

增加 一 个 引用 计数 可 通过 koject_getO 函数 完成 : 


struct kobject * kobject get (struct kobject *kobj}); 


读 函 数 正常 情况 下 将 返回 一 个 指向 kobject 的 指针 ， 如 果 失 败 则 返回 NULL 指针 ; 
减少 引用 计数 通过 kobject put0 完成 ， 这 个 指令 也 声明 在 <linux/kobject.h> 中 : 


void kobject put (struct kobject *kobj);} 


如 果 对 应 的 kobject 的 引用 计数 减少 到 零 ， 则 与 该 kobject 关联 的 ktype 中 的 析 构 函数 将 被 凋 用 。 

2. kref 

我 们 深入 到 引用 计数 系统 的 内 部 去 看 ， 会 发 现 kobject 的 5| 用 计数 十 通过 kref 结构 体 实现 
的 ， 读 结构 体 定义 在 头 文件 <linux/kref.h> 中 : 


struct kref i 
atomic 七 refcount; 
}; 


其 中 唯一 的 字段 是 用 来 存放 引用 计数 的 原子 变量 。 那 为 什么 采用 结构 体 ? 这 是 为 了 便于 进行 
类 型 检测 。 在 使 用 kref 前 ， 你 必须 先 通 过 kref_initO 函数 来 筷 始 化 它 : 


void kref initlstruct kref *kref) 


{ 


} 


正如 你 所 看 到 的 ， 这 个 函数 简单 地 将 原子 变量 置 1， 所 以 kref 一 旦 被 初始 化 ， 它 表示 的 引用 
计数 便 固定 为 1。 这 点 和 kobject 中 的 计数 行为 一 致 。 


atomic set (gkref->refcount, 1); 
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要 获得 对 kref 的 引用 ， 需 要 调用 kref get0O 函数 ， 这 个 函数 声明 在 <linux/krefh> 中 ， 


Volid kref get (struct kref *kref) 


( 
WARN ON{!atomic readlgkref->refcount)).; 
atomic inclgkref->refcount):; 


} 


该 函数 增加 引用 计数 值 ， 它 设 有 返回 值 。 减 少 对 kref 的 引用 ， 调 用 声明 在 <Linux/kreF.h> 中 
的 函数 kref put0O: 


int kref PuUt (StTUC 上 tt kref *kref, void (*release) lstruct kref *kref)) 


WARN ON {release == NULL):; 
WARN ON({release == {void (*) (struct kref *)})kfree):; 


if (atomic dec and test (Ekref->refcount)})}) 1{ 
: release (kref}); 
return 1; 


} 


return 0; 


} 


该 国 数 将 使 得 引用 计数 减 |， 如 果 计 数 减少 到 零 ， 则 可 调用 作为 参数 提供 的 release0 函数 。 广 
意 WARN_ONO 声明 ， 提 供 的 release( 函数 不 能 简单 地 采用 kfree0， 它 必须 是 一 个 仅 接 收 一 个 kref 
结构 体 作为 参数 的 特有 函数 ， 而 且 还 没有 返回 值 。 kref_putO 函数 返回 0， 但 有 一 种 情况 下 它 返 回 1， 
那 就 是 在 对 该 对 象 的 最 后 一 个 引用 减 1 时 。 通 常情 况 下 ，kref_put0 的 调用 者 不 关心 这 个 返回 值 。 

开发 者 现在 不 必 在 内 核 代 码 中 利用 atmoic t 类 型 来 实现 自己 的 引用 计数 和 简单 的 “get”、 
“put” 这 些 封装 国 数 。 对 开发 者 而 言 ， 在 内 核 代码 中 最 好 的 方法 是 利用 kref 类 型 和 它 相 应 的 辅助 
国 数 ， 为 自己 提供 一 个 通用 的 、 正 确 的 引用 计数 机 制 。 

上 述 的 所 有 函数 定义 与 声明 分 别 在 文件 lib/kref.c 和 文件 <linux/kref.h> 中 。 


17.4 sysfs 


sysfs 文件 系统 是 一 个 处 于 内 存 中 的 虚拟 文件 系统 ， 它 为 我 们 提供 了 kobject 对 象 层 次 结构 的 
视图 。 帮 助 用 户 能 以 一 个 简单 文件 系统 的 方式 来 观察 系统 中 各 种 设备 的 拓扑 结构 。 借 助 属性 对 
象 ，kobject 可 以 用 导出 文件 的 方式 ， 将 内 核 变 量 提供 给 用 户 读 取 或 写 人 (可 选 )。 

虽然 设备 模型 的 初 囊 是 为 了 方便 电源 管理 而 提出 的 一 种 设备 拓扑 结构 ， 但 是 sysfs 是 颇 为 意 
外 的 收获 。 为 了 方便 调试 ， 设 备 模 型 的 开发 者 决定 将 设备 结构 树 导出 为 一 个 文件 系统 。 这 个 举 
措 很 快 被 证 明 是 非常 明智 的 ， 首 先 sysfs 代替 了 先前 处 于 /proc 下 的 设备 相关 文件 ; 另外 它 为 系 
统 对 象 提供 了 一 个 很 有 效 的 视图 。 实 际 上 ，sysfs 起 初 被 称 为 driverfs， 它 早 于 kobject 出 现 。 最 
终 sysfs 使 得 我 们 认识 到 一 个 全 新 的 对 象 模型 非常 有 利于 系统 ， 于 是 kobject 应 运 而 生 。 今 天 所 有 
2.6 内 核 的 系统 都 拥有 sysfs 文件 系统 ， 而 且 几 乎 都 毫 无 例外 的 将 其 挂 载 在 sys 目录 下 。 

sys 全 的 诀窍 是 把 kobject 对 象 与 目录 项 (directory entries) 紧密 联系 起 来 ， 这 点 是 通过 
kobject 对 象 中 的 dentry 字段 实现 的 。 回 忆 第 12 章 ，dentry 结构 体 表 示 目 录 项 ， 通 过 连接 kobject 
到 指定 的 目录 项 上 ， 无 疑 方便 地 将 kobject 映射 到 该 目录 上 。 从 此 ， 把 kobject 导出 形成 文件 系统 
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就 变 得 如 同 在 内 存 中 构建 目录 项 一 样 简单 。 好 了 ，kobject 其 实 已 经 形成 了 一 棵 树 一 一 就 是 我 们 
心爱 的 对 象 模型 体系 。 由 于 kobject 被 映射 到 目录 项 ， 同 时 对 象 层次 结构 也 已 经 在 内 存 中 形成 了 
一 棵 树 ， 因 此 sysfs 的 生成 便 水 到 渠 成 般 地 简单 了 。 


| 

| |== loond -> .. /devices/virtual/block/loopd 
| | md0 -> ,, /devices/virtual/block/md0 
| | 一 mbd0 -> .. /devices/virtual/block/nbdd 
| |== ram -> .. /devices/Yvirtual/block/raml 
| “=-- vda —> .. /devices/vbd-51712/block xvda 
| 一 bus 

| “| 一 platform 
| | 一 serio 

| 一 elass 

| [一 bdi 

| 1 一 block 

| 1 一 input 

| “1 一 mem 

| 1== mise 

| | 一 net 

| | 一 ppp 

| | 一 rte 

| | 一 tty 

| | 一 we 

| “一 vtconsole 
1 一 dev 

| | 一 block 

| “=-- char 

| 一 devices 

| | 一 console0 
| | 一 platform 
| ||-- system 

| | 一 vbd-51712 
| 1 一 vbd-51728 
| |-— vif-—0 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 


| 一 exta 


|-- config 
|=— dlm 
| 一 mm 
| 一 motes 
|-- uevent helper 
[一 uevent seqgnum 
| = uids 
一 module 
|=— ext4 
|-- iB042 
|-- kernel 
|== keyboard 
| 一 mousedev 
|-— nbd 
| 一 printk 
| -一 psmouse 
| 一 sch_htb 
| 一 tcp_cuhbiec 
| -= vt 
一 xt_recent 


图 17-2 挂 载 于 /sys 目录 下 的 sysfs 文件 系统 的 局 部 视图 
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sysfs 的 根 目录 下 包含 了 至 少 十 个 目录 : block、bus、class、dev、devices、firmware、 色 、kermnel、 
module 和 power。block 目录 下 的 每 个 子 目录 都 对 应 着 系统 中 的 一 个 已 注册 的 块 设备 。 反 过 来 ， 每 个 
目录 下 又 都 包含 了 该 块 设备 的 所 有 分 区 。bus 目录 提供 了 一 个 系统 总 线 视 图 。class 目录 包含 了 以 高 层 
功能 逻辑 组 织 起 来 的 系统 设备 视图 。dev 目录 是 已 注册 设备 节点 的 视图 。devices 目录 是 系统 中 设备 
拓扑 结构 视图 ， 它 直接 映射 出 了 内 核 中 设备 结构 体 的 组 织 层次 。firmware 目录 包含 了 一 些 诸如 ACPI、 
EDD、EFI 等 低层 子 系统 的 特殊 树 。 久 目录 是 已 注册 文件 系统 的 视图 。kernel 目录 包含 内 核 配置 项 和 
状态 信息 ，module 目录 则 包含 系统 已 加 载 模块 的 信息 。power 目录 包含 系统 范围 的 电源 管理 数据 。 并 
不 是 所 有 的 系统 都 包含 所 有 这 些 目 录 ， 还 有 些 系统 含有 其 他 目录 ， 但 在 这 里 尚未 提 到 。 

其 中 最 重要 的 目录 是 devices， 该 目录 将 设备 模型 导出 到 用 户 空间 。 目 录 结 构 就 是 系统 中 
实际 的 设备 拓扑 。 其 他 目录 中 的 很 多 数据 都 是 将 devices 目录 下 的 数据 加 以 转换 加 工 而 得 。 比 
如 ，/sys/class/net/ 目录 是 以 注册 网 络 接口 这 一 高 层 概念 来 组 织 设 备 关 系 的 ， 在 这 个 目录 中 可 能 会 有 
目录 eth0， 它 里 面包 含 的 devices 文件 其 实 就 是 一 个 指 回 到 devices 下 实际 设备 目录 的 符号 连接 。 

随便 看 看 你 可 访问 到 的 任何 Linux 系统 的 sys 目录 ， 这 种 系统 设备 视图 相当 准确 和 潭 亮 ， 而 
且 可 以 看 到 class 中 的 高 层 概 念 与 devices 中 的 低层 物理 设备 ， 以 及 bus 中 的 实际 驱动 程序 之 间 互 
相 联 络 是 非常 广泛 的 。 当 你 认识 到 这 种 数据 是 开放 的 ， 换 句 话说 ， 这 是 内 核 中 维持 系统 的 很 好 表 
示 方 式 吕 时 ,整个 经 历 都 弥 足 珍贵 。 : 


17.4.1 sysfs 中 添加 和 删除 kobject 


仅仅 初始 化 kobject 是 不 能 自动 将 其 导出 到 sysfs 中 的 ， 想 要 把 kobject 导入 sysfs， 你 需要 用 
到 国 数 kobject_add() : 


int kobject add(lstruct kobject *kobj, struct kobject *parent, const char *fmt, ...); 


kobject 在 sysfs 中 的 位 置 取决 于 kobject 在 对 和 象 层次 结构 中 的 人 位置。 如果 kobject 的 父 指 针 
被 设置 ， 那 么 在 sysfs 中 kobject 将 被 映射 为 其 父 目录 下 的 子 目 录 ; 如 果 parent 没有 设置 ， 那 么 
kobject 将 被 映射 为 kset->kobj 中 的 子 目 录 。 如 果 给 定 的 kobject 中 parent 或 kset 字段 都 设 有 被 设 
置 ， 那 么 就 认为 kobject 没有 父 对 象 ， 所 以 就 会 被 映射 成 sysfs 下 的 根 级 目录 。 这 往往 不 是 你 所 需 
要 的 ， 所 以 在 调用 kobject add() 前 parent 或 kset 字段 应 该 进行 适当 的 设置 。 不 管 怎么 样 ，sysfs 
中 代表 kobject 的 目录 名 字 是 由 fmt 指定 的 ， 它 也 接受 printf() 样式 的 格式 化 字符 串 。 

辅助 国 数 kobject_create_and_ add() 把 kobject_create() 和 kobject_ add0 所 做 的 工作 放 在 一 个 
销 数 中 : 


struct kobject *kobject create and addiconst char *name, struct kobject *parent}:; 


注意 kobject_create and add() 函数 接受 直接 的 指针 name 作为 kobject 所 对 应 的 目录 名 称 ， 
而 kobject_add() 使 用 printf() 风格 的 格式 化 字符 事 。 


全 ”如果 你 对 sys 全 感 兴趣 ， 你 可 能 也 会 对 HAL 感 兴 趣 ， 它 是 一 个 硬件 抽象 层 ， 可 以 在 http://hal.freedesktop.org/. 
wiki/software/hal 找到 它 。HAL 基于 sysfs 中 的 数据 建立 起 了 一 个 内 存 数据 库 ， 将 class 概念 、 设 备 和 概念 和 驱动 
概念 联系 到 一 起 。 在 这 些 数据 之 上 ，HAL 提供 了 丰富 的 API 以 使 得 应 用 程序 更 灵活 。 
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从 sysfs 中 删除 一 个 kobject 对 应 文件 目录 ， 需 使 用 函数 kobject_del() : 


void kobject_del(struct kobject *kobjl ; 


上 述 这 些 国 数 都 定义 于 文件 lib/kobject.c 中 ， 声 明 于 头 文 件 <linux/kobject.h> 中 。 
17.4.2 向 sysfs 中 添加 文件 


我 们 已 经 看 到 kobject 被 映射 为 文件 目录 ， 而 且 所 有 的 对 象 层 次 结构 都 优雅 地 、 一 个 不 少 地 
映射 成 sys 下 的 目录 结构 。 但 是 里 面 的 文件 是 什么 ? sysfs 仅仅 是 一 个 漂亮 的 树 ， 但 是 没有 提供 
实际 数据 的 文件 。 

1. 默认 属性 

默认 的 文件 集合 是 通过 kobject 和 kset 中 的 ktype 字段 提供 的 。 因 此 所 有 有 具有 相同 类 型 
的 kobject 在 它们 对 应 的 sysfs 目录 下 都 拥有 相同 的 默认 文件 集合 。kobj_type 字段 含有 一 个 字 
段 一 一 default_attrs， 它 是 一 个 attribute 结构 体 数 组 。 这 些 属性 负责 将 内 核 数据 映射 成 sysfs 中 
的 文件 。 

attribute 结构 体 定义 在 文件 <linux/sysfs.h> 中 : 

/* attribute 结构 体 - 内 核 数据 映射 成 sysfs 中 的 文件 */ 


struct attribute I 
Const char *name 1* 属性 名 称 */ 
struct module *Owner;  /* 所 属 模块 ， 如果 存在 */ 
mode 七 mode; /* 权限 */ 
] 
其 中 名 称 字段 提供 了 该 属性 的 名 称 ， 最 终 出 现在 sysfs 中 的 文件 名 就 是 它 。owner 字段 在 存 
在 所 属 模块 的 情况 下 指向 其 所 属 的 module 结构 体 。 如 果 一 个 模块 没有 该 属性 ， 那 么 该 字段 为 
NULL。mode 字段 类 型 为 mode_t， 它 表示 了 sysfs 中 该 文件 的 权限 。 对 于 只 读 属 性 而 言 ， 如 果 是 
所 有 人 都 可 读 它 ， 那 么 该 字段 被 设 为 S IRUGO ; 如 果 只 限于 所 有 者 可 读 ， 则 该 字段 被 设置 为 $ _ 
IRUSR。 同 样 对 于 可 写 属性 ， 可 能 会 设置 该 字段 为 S_IRUGO | S_IWUSR。sysfs 中 的 所 有 文件 和 
目录 的 uid 与 gid 标志 均 为 零 。 
虽然 default_attrs 列 出 了 默认 的 属性 ，sysfs_ops 字段 则 描述 了 如 何 使 用 它们 。sysfs_ops 字段 
指向 了 一 个 定义 于 文件 <linux/sysfs.h> 的 同名 的 结构 体 ; 
struct sysfs ops 1 
/* 在 读 sysfs 文件 时 该 方法 被 调用 */ 
ssize t (*show) (struct kobject *kob]j, 


struct attribute *attr, 
char *bhuffer):; 


A* 在 写 sysfs 文件 时 读 方 法 被 调用 */ 

ssize t {*store} lstruct kobject *kobj, 
Struct attribute *attr, 
const char *buffer, 
size t size); 
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当 从 用 户 空间 读 取 sysfs 的 项 时 调用 show() 方法 。 它 会 拷贝 由 attr 提供 的 属性 值 到 buffer 指 
定 的 缓冲 区 中 ， 缓 冲 区 大 小 为 PAGE SIZE 字 节 ; 在 x86 体系 中 ，PAGE SIZE 为 4096 字 节 。 该 
国 数 如 果 执 行 成 功 ， 则 将 返回 实际 写 人 buffer 的 字 节 数 ; 如 果 失 败 ， 则 返回 负 的 错误 码 。 

store() 方法 在 写 操作 时 调用 ， 它 会 从 buffer 中 读 取 size 大 小 的 宇 节 ， 并 将 其 存放 人 attr 表示 
的 属性 结构 体 变 量 中 。 缓 冲 区 的 大 小 总 是 为 PAGE SIZE 或 更 小 些 。 读 函数 如 果 执 行 成 功 ， 则 将 
返回 实际 从 buffer 中 读 取 的 字 节 数 ; 如 果 失 败 ， 则 返回 负数 的 错误 码 。 

由 于 这 组 函数 必须 对 所 有 的 属性 都 进行 文件 WO 请 求 处 理 ， 所 以 它们 通常 需要 维护 某 些 通用 
映射 来 调用 每 个 属性 所 特有 的 处 理 国 数 。 

2. 创建 新 属性 

通常 来 讲 ， 由 kobject 相关 ktype 所 提供 的 默认 属性 是 充足 的 ， 事 实 上 ， 因 为 所 有 具有 相同 
ktype 的 kobject， 在 本 质 上 区 别 不 大 的 情况 下 ， 都 应 是 相互 接近 的 。 也 就 是 说 ， 比 如 对 于 所 有 的 
分 区 而 言 ， 它 们 完全 可 以 具有 同样 的 属性 集合 。 这 不 但 可 以 让 事情 简单 ， 有 助 于 代码 合并 ， 还 使 
类 似 对 象 在 sysfs 目录 中 外 观 一 致 。 

但 是 ， 有 时 在 -一些 特别 情况 下 会 碰 到 特殊 的 kobject 实例 。 它 希望 〈 甚 至 是 必须 ) 有 自己 的 
属性 一 一 也 许 是 通用 属性 没 包含 那些 需要 的 数据 或 者 函数 。 为 此 ， 内 核 为 能 在 默认 集合 之 上 ， 表 
添加 新 属性 而 提供 了 sysfs_create_file() 接口 : 


int sysfs create file(struct kobject *kobj, const struct attribute *attr); 


这 个 接口 通过 attr 参 数 指向 相应 的 attribute 结构 体 ， 而 参数 kobj 则 指定 了 属性 所 在 的 
kobject 对 象 。 在 该 函数 被 调用 前 ， 给 定 的 属性 将 被 赋值 ， 如 果 成 功 ， 该 函数 返回 零 ， 否 则 返回 
负 的 错误 码 , 

注意 ，kobject 中 ktype 所 对 应 的 sysfs_ops 操作 将 负责 处 理 新 属性 。 现 有 的 show() 和 store() 
方法 必须 能 够 处 理 新 属性 。 

除了 添加 文件 外 ， 还 有 可 能 需要 创建 符号 连接 。 在 sysfs 中 创建 一 个 符号 连接 相当 简单 : 

int sysfs create link(struct kobject *kobj, struct kobject *target, char *name); 

读 国 数 创 建 的 符号 连接 名 由 name 指定 ， 连 接 则 由 kobj 对 应 的 目 如 映射 到 target 指定 的 目 
录 。 如 果 成 功 该 函数 返回 零 ， 如 果 失 败 返 回 负 的 错误 码 。 

3. 删除 新 属性 

删除 一 个 属性 需 通 过 明 数 sysfs_remove file0 完成 : 

void sysfs remove filel(lstruct kobject *kobj, const struct attribute *attr); 

一 旦 调用 返回 ， 给 定 的 属性 将 不 再 存在 于 给 定 的 kobject 目录 中 。 另 外 由 sysfs_creat_link() 
创建 的 符号 连接 可 通过 国 数 sysfs_remove_link( 删除 : 

void sysfs remove linkl(lstruct kobject *kobj, char * 了 amel ; 

,调用 一 旦 返回 ， 在 kobj 对 应 目录 中 的 名 为 name 的 符号 连接 将 不 复 存 在 。 

上 述 的 四 个 函数 在 文件 <linux/kobject.h> 中 声明 ; sysfs create file() 和 sysfs remove file() 
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国 数 定 义 于 文件 fs/sysfs/file.c. 中 ; sysfs_create link() 和 sysfs remove link() 函数 定义 于 文件 fs/ 
sysfs/symlink.c 中 。 

4. sysfs 约定 

当前 sysfs 文件 系统 代替 了 以 前 需要 由 iocttD〈 作 用 于 设备 节点 ) 和 procfs 文件 系统 完成 的 
功能 。 目 前 ， 在 合适 目录 下 实现 sysfs 属性 这 样 的 功能 的 确 别 具 一 格 。 比 如 利用 在 设备 映射 的 
sysfs 目录 中 添加 一 个 sysfs 属性 ， 代 替 在 设备 节点 上 实现 一 新 的 ioctl()。 采 用 这 种 方法 避免 了 在 
调用 ioctl0 时 使 用 类 型 不 正确 的 参数 和 和 弄 乱 /proc 目录 结构 。 

但 是 为 了 保持 sysfs 干净 和 直观 ， 开 发 者 必须 遵从 以 下 约定 。 

首先 ，sysfs 属性 应 该 保证 每 个 文件 只 导出 一 个 值 ， 该 值 应 该 是 文本 形式 而 且 映 射 为 简单 C 
类 型 。 其 目的 是 为 了 避免 数据 的 过 度 结 构 化 或 太 凌 乱 ， 现 在 /proc 中 就 混乱 而 不 具有 可 读 性 。 每 
个 文件 提供 一 个 值 ， 这 使 得 从 命令 行 读 写 变 得 简洁 ， 同 时 也 使 C 语言 程序 轻易 地 将 内 核 数 据 从 
sysfs 导 人 到 目 身 的 变量 中 去 。 但 有 些 时 候 ， 一 值 一 文件 的 规则 不 能 很 有 效 地 表示 数据 ， 那 么 可 
以 将 同一 类 型 的 多 个 值 放 入 一 个 文件 中 。 不 过 这 时 需要 合理 地 表述 它们 ， 比 如 利用 一 个 空格 也 
许 就 可 使 其 意义 清晰 明了 。 总 的 来 讲 ， 应 考虑 sysfs 属性 要 映射 到 独立 的 内 核 变量 (正如 通常 所 
做 )， 而 且 要 记 住 应 保证 从 用 户 空 间 操 作 简 单 ， 尤 其 是 从 shell 操作 简单 。 

其 次 ， 在 sysfs 中 要 以 一 个 清晰 的 层次 组 织 数 据 。 父 子 关 系 要 正确 才能 将 kobject 层次 结构 直 
观 地 映射 到 sysfs 树 中 。 另 外 ，kobject 相关 属性 同样 需要 正确 ， 并 且 要 记 住 kobject 层次 结构 不 
仅仅 存在 于 内 核 ， 而 且 也 要 作为 一 个 树 导 出 到 用 户 空间 ， 所 以 要 保证 sysfs 树 健全 无 误 。 

最 后 ， 记 住 sysfs 提供 内 核 到 用 户 空间 的 服务 ， 这 多 少 有 些 用 户 空间 的 ABI (应 用 程序 二 进 
制 接口 》 的 作用 。 用 户 程 序 可 以 检 铀 和 获得 其 存在 性 、 位 置 、 取 值 以 及 sysfs 目录 和 文件 的 行为 。 
任何 情况 下 都 不 应 改变 现 有 的 文件 ， 另 外 更 改 给 定 属 性 ， 但 保留 其 名 称 和 位 置 不 变 无 疑 是 在 自 找 
麻烦 。 

这 些 简单 的 约定 保证 sysfs 可 为 用 户 空间 提供 丰富 和 直观 的 接口 。 正 确 使 用 sysfs， 其 他 应 用 
程序 的 开发 者 绝 不 会 对 你 的 代码 抱 有 微 辞 ， 相反 会 赞美 它 。 


17.4.3 ”内 核 事 件 层 


内 核 事件 层 实现 了 内 核 到 用 户 的 消息 通知 系统 一 一 就 是 建立 在 上 文 一 直 讨 论 的 kobject 基础 
之 上 。 在 2.6.0 版 本 以 后 ， 显 而 易 见 ， 系 统 确实 需要 一 种 机 制 来 帮助 将 事件 传 出 内 核 输 送 到 用 户 
空间 ， 特 别 是 对 桌面 系统 而 言 ， 因 为 它 需 要 更 完整 和 异步 的 系统 。 为 此 就 要 让 内 核 将 其 事件 压 到 
堆栈 : 硬盘 满 了 ! 处 理 器 过 热 了 ! 分 区 挂 载 了 ! 

早期 的 事件 层 没 有 采用 kobject 和 sysfs， 它 们 如 过 眼 烟 云 ， 没 有 存在 多 和 久 。 现 在 的 事 忻 层 借 
助 koject 和 sysfs 实现 已 证 明 相当 理想 。 内 核 事 件 层 把 事件 模拟 为 信号 一 一 从 明确 的 koject 对 
象 发 出 ， 所 以 每 个 事件 源 都 是 一 个 sysfs 路 径 。 如 果 请 求 的 事件 与 你 的 第 一 个 硬盘 相关 ， 那 么 / 
sys/block/had 便 是 源 树 。 实 质 上 ， 在 内 核 中 我 们 认为 事件 都 是 从 幕后 的 kobject 对 象 产生 的 。 

每 个 事件 都 被 赋予 了 一 个 动词 或 动作 字符 串 表 示人 信号。 该 字符 串 会 以 “被 修改 过 ”或 “未 挂 
载 ” 等 词语 来 描述 事件 。 
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最 后 ， 每 个 事件 都 有 一 个 可 选 的 负载 (payload)。 相 比 传递 任意 一 个 表示 负载 的 字符 串 到 用 
户 空间 而 言 ， 内 核 事 件 层 使 用 sysfs 属性 代表 负载 。 

从 内 部 实现 来 讲 ， 内 核 事 件 由 内 核 空 间 传递 到 用 户 空 间 需 要 经 过 netlink。netlink 是 一 个 用 
于 传送 网 络 信息 的 多 点 传送 套 接 字 。 使 用 netlink 意味 着 从 用 户 空间 获取 内 核 事 件 就 如 同 在 套 接 
字 上 堵塞 一 样 易 如 反 和 掌 。 方 法 就 是 用 户 空 间 实现 一 个 系统 后 台 服 务 用 于 监听 套 接 字 ， 处 理 任 何 读 
到 的 信息 ， 并 将 事件 传送 到 系统 栈 里 。 对 于 这 种 用 户 后 台 服 务 来 说 ， 一 个 潜在 的 目的 就 是 将 事件 
融入 D-BUS 系统 品 。D-BUS 系统 已 经 实现 了 一 套 系统 范围 的 消息 总 线 ， 这 种 总 线 可 帮助 内 核 如 
同系 统 中 其 他 组 件 一 样 地 发 出 信和 号。 

在 内 核 代码 中 向 用 户 空间 发 送信 号 使 用 函数 kobject_uevent() : 


int kobject uevent(struct kobject *kobj,enum kobject action action); 


第 一 个 参数 指定 发 送 该 信号 的 koject 对 象 。 实 际 的 内 核 事件 将 包含 该 koject 映射 到 sysfs 的 
路 径 。 

第 二 个 参数 指定 了 描述 该 信 和 号 的 “动作 ”或 “动词 "。 实 际 的 内 核 事件 将 包含 一 个 映射 
成 枚 举 类 型 kobject_action 的 字符 串 。 读 函数 不 是 直接 提供 一 个 字符 电 ， 而 是 利用 一 个 枚 举 变 
量 来 提高 可 重用 性 和 保证 类 型 安全 ， 而 且 也 消除 了 打字 错误 或 其 他 错误 。 该 枚 举 变量 定义 于 
文件 <linux/kobject_uevent.c> 中 ， 其 形式 为 kOBJ foo。 当 前 值 包 含 kOBJ MOUNT、kOBJ_ 
UNMOUNT, kOBJ ADD, kOBJ REMOVE 和 kOBJ CHANGE 等 ， 这 些 值 分 别 映 射 为 字符 味 
“mount” “unmount”、“add”、“remove” 和 “change” 等 。 当 这 些 现 有 的 值 不 够 用 时 ， 人 光 许 添加 
新 动作 。 

使 用 kobject 和 属性 不 但 有 利于 很 好 的 实现 基于 sysfs 的 事件 ， 同 时 也 有 利于 创建 新 kojects 
对 象 和 属性 来 表示 新 对 象 和 数据 一 一 它们 尚未 出 现在 sysfs 中 。 

这 两 个 国 数 分 别 定 多 和 声明 于 文件 lib/kobject_uevent.c 与 文件 <linux/kobject.h> 中 。 


17.5 小结 


本 章 中 ， 我 们 考察 的 内 核 功能 涉及 设备 驱动 的 实现 和 设备 树 的 管理 ， 包 括 模块 、kobject〈 以 
及 相关 的 kset 和 ktype) 和 sysfs。 这 些 功能 对 于 设备 驱动 程序 的 开发 者 来 说 是 至 关 重 要 的 ， 因 为 
这 能 够 让 他 们 写 出 更 为 模块 化 、 更 为 高 级 的 驱动 程序 。 

这 章 讨论 了 内 核 中 我 们 要 学 习 的 最 后 一 个 子 系统 ， 从 下 面 开 始 要 介绍 一 些 普遍 的 但 却 重要 的 
主题 ， 这 些 主题 是 任何 一 个 内 核 开发 者 都 需要 了 解 的 ， 首 先 要 讲 的 就 是 调试 ! 


日 想 了 解 D-BUS 更 多 的 信息 ， 参 见 http://dbus.freedesktop.org/。 


调 二 


调试 工作 艰难 是 内 核 级 开发 区 别 于 用 户 级 开发 的 一 个 显著 特点 。 相 比 于 用 户 级 开发 ， 内 核 调 
试 的 难度 确实 要 艰苦 得 多 。 更 可 怕 的 是 ， 它 带 来 的 风险 比 用 户 级 别 更 高 ， 内 核 的 一 个 错误 往往 立 
刻 就 能 让 系统 崩 涡 。 

驾 慌 内 核 调试 的 能 力 (当然 ， 最 终 是 为 了 能 够 成 功 地 开发 内 核 ) 很 大 程度 上 取决 于 经 验 和 对 
整个 操作 系统 的 把 握 。 没 错 ， 玉 树 临 风 可 能 会 对 别 的 事情 有 帮助 ， 但 是 调试 内 核 的 关键 还 是 在 于 
你 对 内 核 的 深刻 理解 。 然 而 我 们 必须 找到 可 以 开始 着 手 的 地 方 ， 所 以 ， 在 这 一 章 里 我 们 从 调试 内 
核 的 一 种 可 能 步骤 开始 。 


18.1 准备 开始 


内 核 调 试 往往 是 一 个 令 人 挠 头 不 已 的 瘟 长 过 程 。 不 少 bug 已 经 让 整个 开发 社区 几 个 月 都 食 
不 甘 味 了 。 幸 运 的 是 ， 在 这 些 费 劲 的 问题 中 也 有 不 少 比较 简单 ， 而 且 容 易 消 灭 的 小 bug。 运 气 好 
时 ， 你 可 能 面 对 的 是 些 简单 的 小 bug。 开 始 做 一 些 调查 之 前 ， 不 会 清楚 到 底面 对 的 是 什么 。 现 
在 ， 需 要 的 只 是 : 

" 一 个 bug。 了 听 起 来 很 可 笑 ， 但 确实 需要 一 个 确定 的 bug。 如 果 错 误 总 是 能 够 重 现 的 话 ， 那 

对 我 们 会 有 很 大 的 帮助 《有 一 部 分 错误 确实 如 此 )。 然 而 不 幸 的 是 ， 大 部 分 bug 通常 都 不 

是 行为 可 靠 而 且 定 义 明 确 的 。 

“一 个 藏匿 bug 的 内 核 版 本 。 如 果 你 知道 这 个 bug 最 早出 现在 哪个 内 核 版 本 中 那 就 再 理想 不 

过 了 。 如 采 你 还 不 知道 的 话 ， 别 着 急 ， 本 章 会 教 你 一 个 快速 找 出 这 个 bug 首先 出 现在 哪个 

内 核 版 本 中 的 方法 。 

* 相关 内 核 代 码 的 知识 和 运气 。 调 试 内 核 其 实 古 一 个 坏 手 的 问题 。 不 过 对 周围 的 代码 理解 得 

越 多 ， 调 试 起 来 也 就 越 轻松 。 

本 章 中 的 大 多 数 方法 都 假定 能 够 让 bug 重 现 。 因 此 ， 想 要 成 功 地 进行 调试 ， 就 取决 于 是 否 
能 让 上 这些 错 误 重 现 。 如 果 不 能 ， 宵 灭 bug 就 只 能 通过 抽象 出 问题 ， 再 从 代码 中 搜索 蛛丝马迹 来 进 
行 了 。 虽 然 有 时 也 得 这 么 做 ， 但 如 果 你 能 够 让 错误 重 现 ， 成 功 的 机 会 要 大 许多 。 

有 一 些 bug 存在 而 且 有 人 设 办 法 让 它 重 现 ， 这 听 起 来 可 能 感觉 挺 奇怪 。 在 用 户 级 的 程序 里 ， 
bug 常常 表现 得 很 直截了当 。 比 如 ， 执 行 foo 就 会 让 程序 立即 产生 核心 信息 转 储 (dump core )。 
但 是 内 核 中 的 bug 表现 却 不 是 那么 清晰 。 内 核 、 用 户 程 序 和 硬件 之 间 的 交互 常常 会 很 微妙 。 一 
个 竞争 条 件 可 能 在 几 百 万 次 的 算法 迭代 中 才 露 出 一 次 独 莉 的 面孔 。 设 计 不 佳 的 (其 至 是 包含 错误 
的 ) 代码 在 某 些 系 统 上 可 能 还 让 人 可 以 忍受 ， 而 在 其 他 的 一 些 系统 中 却 表现 得 相当 精 糕 。 在 一 些 
特定 的 配置 、 一 些 特定 的 机 器 上 ， 通 常 都 需要 付出 额外 的 努力 来 触发 某 个 bug， 不 然 的 话 ， 根 本 
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看 不 到 它 。 在 跟踪 bug 的 时 候 ， 谷 提 的 信息 越 多 越 好 。 许 多 时 候 ， 当 可 以 精确 地 重 现 一 个 bug 的 
时 候 ， 就 已 经 成 功 了 一 大 半 了 ，。 


18.2 内核 中 的 bug 


内 核 中 的 bug 多 种 多 样 。 它 们 的 产生 可 以 有 无 数 的 原因 ， 同 时 它们 的 表象 也 变化 多 端 。 从 
明白 无 误 的 错误 代码 (比如 ， 没 有 把 正确 的 值 存放 在 恰当 的 位 置 ) 到 同步 时 发 生 的 错误 〈 比 如 ， 
共享 变量 锁定 不 当 )， 再 到 错误 地 管理 硬件 (比如 ， 给 错误 的 控制 寄存 器 发 送 错误 的 指令 ) ; 从 降 
低 所 有 程序 的 运行 性 能 到 毁坏 数据 再 到 使 得 系统 处 于 死 锁 状态 ， 都 可 能 是 bug 发 作 时 的 症状 。 

从 隐藏 在 源 代码 中 的 错误 到 展现 在 目击 者 面前 的 bug， 人 往往 是 经 历 一 系列 连锁 反应 的 事件 才 
可 能 触发 的 。 举 个 例子 ， 一 个 被 共享 的 结构 体 ， 如 采 它 设 有 5| 用 计数 ， 那 么 它 就 有 可 能 会 引发 竟 
委 条 件 。 因 为 没有 引用 计数 的 话 ， 一 个 进程 可 以 在 另外 一 个 进程 仍然 需要 使 用 该 结构 的 时 候 就 释 
放 掉 它 。 继 而 ， 第 二 个 进程 就 有 可 能 试图 通过 无 效 的 指针 去 使 用 一 个 不 存在 的 数据 结构 。 这 样 做 
可 能 导致 引用 一 个 空 指 针 ， 也 可 能 导致 读 出 一 些 垃圾 数据 ， 还 可 能 并 不 产生 什么 恶果 (如 果 该 数 
据 并 没有 被 其 他 什么 覆盖 的 话 )。3 引 用 空 指 针 会 导致 产生 一 个 oops， 而 垃圾 数据 可 能 会 导致 系统 
崩 注 (这 种 情形 比 oops 还 坏 )。 用 户 报 告 了 oops 或 系统 的 错误 现象 之 后 ， 开 发 者 回 过 头 来 观察 
错误 情形 ， 发 现在 释放 数据 之 后 还 会 对 它 进行 读 写 ， 存 在 着 一 个 竞争 条 件 ， 于 是 就 会 进行 修正 ， 
给 这 个 共享 的 结构 加 上 适当 的 引用 计数 。 

内 核 调 试听 起 来 很 难 ， 但 事实 上 Linux 内 核 与 其 他 大 型 的 软件 项 目 也 没有 什么 太 大 的 不 同 。 
内 核 确实 有 一 些 独特 的 问题 需要 考虑 ， 像 定时 限制 和 竞争 条 件 等 ， 它 们 都 是 允许 多 个 线程 在 内 核 
中 同时 运行 产生 的 结果 。 


18.3 通过 打印 来 调试 


内 核 提供 的 打印 函数 printk0 和 C 库 提供 的 printf0 函数 功能 几乎 相同 。 实 际 上 ， 在 本 书 中 
我 们 都 没有 用 到 这 两 个 函数 的 不 同 部 分 。 从 它 实 现 的 大 部 分 意图 来 说 ， 这 个 名 字 很 不 错 ，printk() 
就 是 内 核 的 格式 化 打印 函数 。 但 是 ，printk0 确实 还 有 一 些 自身 特殊 的 功能 。 


18.3.1 健壮 性 


健壮 性 是 printk0 函数 最 容易 让 人 们 接受 的 一 个 特质 。 任 何 时 候 ， 任 何 地 方 都 能 调用 它 ， 内 
核 中 的 printk0 比比 皆 是 。 可 以 在 中 断 上 下 文 和 进程 上 下 中 被 调用 ; 可 以 在 任何 持 有 锁 时 被 调 
用 ; 可 以 在 多 处 理 器 上 同时 被 调用 ， 而 且 调用 者 连锁 都 不 必 使 用 。 

它 是 一 个 弹性 极 佳 的 函数 。 这 一 点 相当 重要 ，printk0 之 所 以 这 么 有 用 ， 就 在 于 它 随 时 都 能 
被 调用 。 

Printk( 消 数 的 健壮 肛 尝 下 也 难免 会 有 漏洞 。 在 系统 局 动 过 程 中 ， 终 剖 还 没有 人 币 始 化 之 前 ， 
在 某 些 地 方 不 能 使 用 它 。 不 过 说 实在 的 ， 如 果 终 端 设 有 初始 化 ， 你 又 能 输出 到 什么 地 方 去 呢 ? 

这 一 般 不 是 一 个 什么 问题 ， 除 非 你 要 调试 的 是 启动 过 程 最 开始 的 那些 步 踊 (比如 说 在 负责 执 
行 硬件 体系 结构 相关 的 初始 化 动作 的 setup_arch0 函数 中 )。 着 手 进行 这 样 的 调试 挑战 性 很 强 一 一 
设 有 任何 打印 函数 能 用 ， 确 实 让 问题 更 加 棘手 。 
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不 过 还 是 有 一 些 可 以 指望 的 (虽然 不 多 )。 核 心 硬件 部 分 的 黑客 依靠 此 时 能 够 工作 的 硬件 
设备 (比如 说 一 个 串口 ) 与 外 界 通信 。 绝 大 部 分 人 对 此 都 不 会 感 兴趣 。 解 决 的 办 法 是 提供 一 个 
printk0 的 变 体 函数 一 一 early_printk()， 这 个 函数 在 启动 过 程 的 初期 就 有 具有 在 终端 上 打印 的 能 力 。 
它 的 功能 与 prink0 完全 相同 ， 区 别 仅 仅 在 于 名 字 和 能 够 更 旱地 工作 。 不过， 由 于 该 函数 在 一 些 
内 核 支持 的 硬件 体系 结构 上 无 法 实现 ， 所 以 这 种 办 法 缺少 可 移植 性 。 但 是 ， 如 果 所 使 用 的 硬件 体 
系 可 以 实现 这 个 函数 (大 多 数 硬件 体系 都 可 以 ， 包 括 x86)， 它 就 是 最 好 的 指望 。 

除非 在 启动 过 程 的 初期 就 要 在 终端 上 输出 ， 否 则 可 以 认为 printk() 在 什么 情况 下 都 能 工作 。 


18.3.2 日 志 等 级 


printk() 和 printf() 在 使 用 上 最 主要 的 区 别 就 是 前 者 可 以 指定 一 个 日 志 级 别 。 内 核 根据 这 个 级 
别 来 判断 是 否 在 终端 上 打印 消息 。 内 核 把 级 别 比 某 个 特定 值 低 的 所 有 消息 显示 在 终端 上 。 

可 以 通过 下 面 这 种 方式 指定 一 个 记录 级 别 : 

printk (KERN WARNING "This is a warningl\n"); 

printk (KERN DEBUG "This is a debug notice!l\n"); 

printk("I did not specify a loglevell\n"); 

KERN WARING 和 KERN DEBUG 都 是 <linux/kernel.h> 中 的 简单 宏 定 义 。 它 们 扩展 开 是 像 
“<4> ”或 “<7>” 这 样 的 字符 帅 ， 加 进 printk0 函数 要 打印 的 消息 的 开头 。 内 核 用 这 个 指定 的 记 
录 等 级 和 当前 终端 的 记录 等 级 console_loglevel 来 决定 是 不 是 向 终端 上 打印 。 表 18-1 列举 了 所 有 
可 供 使 用 的 记录 等 级 。 


表 18-1 可 供 使 用 的 记录 等 级 


记录 等 级 描 述 
KERN EMERG 一 个 紧急 情况 
KERN ALERT 一 个 需要 立即 被 福 意 到 的 错误 
KERN_CRIT 一 个 临界 情况 
KERN_ERR 一 个 错误 
KERN WARNING 一 个 警告 
KERN_ NOTICE 一 个 普通 的 ， 不 过 也 有 可 能 需要 注意 的 情况 
KERN_INFO 一 条 非 正式 的 消息 
KERN_DEBUG 一 条 调试 信息 一 一 一 般 是 元 余 信 息 


如 果 你 没有 特别 指定 一 个 记录 等 级 ， 函 数 会 选用 默认 的 DEFAULT_MESSAGE_LOGLEVEL， 
现在 默认 等 级 是 KERN_WARNING。 由 于 这 个 默认 值 将 来 存在 变化 的 可 能 性 ， 所 以 还 是 应 该 给 自 
己 的 消息 指定 一 个 记录 等 级 。 

内 核 将 最 重要 的 记录 等 级 KERN EMERG 定 为 “<0>”， 和 将 无 关 紧 要 的 记录 等 级 “KERN_ 
DEBUG” 定 为 “<7>”。 举 例 来 说 ， 当 编译 预 处 理 完成 之 后 ， 前 例 中 的 代码 实际 被 编译 成 如 下 格式 : 


printk("<4> This is a warning!\n"); 
printk("<7»> This is a debug notice!l\n"),; 
printk("<4> did not specify a loglevell\n").; 
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怎样 给 调用 的 printk( 岂 记 录 等 级 完全 取决 于 目 己 。 那 些 正 式 的、 需要 你 保 插 的 消息 应 该 有 
合适 的 记录 等 级 。 但 是 那些 当 你 试图 解决 一 个 问题 时 加 得 到 处 都 是 的 调试 信息 (必须 承认 ， 我 
们 都 这 么 干 而 且 也 确实 行 得 通 )， 可 以 按照 你 的 想法 赋予 记录 等 级 。 一 种 选择 是 保持 终端 的 默 
认 记 录 等 级 不 变 ， 给 所 有 调试 信息 KERN_CRIT 或 更 低 的 等 级 。 相 反 ， 也 可 以 给 所 有 调试 信息 
KERN_DEBUG 等 级 ， 而 调整 终端 的 默认 记录 等 级 。 两 种 方法 各 有 利 棘 ， 自 己 拿 主 意 吧 。 


18.3.3 ”记录 缓冲 区 


内 核 消 息 都 被 保存 在 一 个 LOG_BUF_LEN 大 小 的 环形 队列 中 。 访 缓冲 区 大 小 可 以 在 编译 时 
通过 设置 CONEFIG LOG _BUF_SHIFT 进行 调整 。 在 单 处 理 器 的 系统 上 其 默认 值 是 16KB。 换 句 
话说 ， 就 是 内 核 在 同一 时 间 只 能 保存 16KB 的 内 核 消 息 。 如 果 消 息 队 列 已 经 达到 景 大 值 ， 那 么 如 
果 再 有 printk() 调用 时 ， 新 消息 将 覆盖 队列 中 的 老 消息 。 这 个 记录 缓 仲 区 之 所 以 称 为 环形 ， 是 因 
为 它 的 读 写 都 是 按照 环形 队列 方式 进行 操作 的 。 

使 用 环形 队列 有 许多 好 处 。 由 于 同时 读 写 环形 缓冲 区 时 ， 其 同步 问题 很 容易 解决 ， 所 以 即使 
在 中 断 上 下 文中 也 可 以 方便 地 使 用 printk()。 此 外 ， 它 使 记录 维护 起 来 也 更 容易 。 如 果 有 大 量 的 
消息 同时 产生 ， 新 消息 只 需 覆 盖 掉 旧 消 息 即 可 。 在 某 个 问题 引发 大 量 消息 的 时 候 , 记录 只 会 覆盖 
掉 它 本 身 ， 而 不 会 因为 失控 而 消耗 掉 大 量 内 存 。 而 环形 缓冲 区 的 唯一 缺点 一 一 可 能 会 丢失 消息 ， 
但 是 与 简单 性 和 健壮 性 的 好 处 相 比 ， 这 点 代价 是 值得 的 。 


18.3.4 syslogd 和 klogd 


在 标准 的 Linux 系统 上 ， 用 户 空间 的 守护 进程 klogd 从 记录 缓冲 区 中 获取 内 核 消 息 ， 再 通过 
syslogd 守护 进程 将 它们 保存 在 系统 日 志文 件 中 。klogd 程序 既 可 以 从 /proc/kmsg 文 件 中 ， 也 可 以 
通过 syslog( 系统 调用 读 取 这 些 消息 。 默 认 情 况 下 ， 它 选择 读 取 /proc 方式 实现 , 不 管 是 哪 种 方 
法 ，klogd 都 会 阻塞 ， 直 到 有 新 的 内 核 消息 可 供 读 出 。 在 被 唤醒 之 后 ， 它 会 读 取 出 新 的 内 核 消 息 
并 进行 处 理 。 上 默认 情况 下 ， 它 就 是 把 消息 传 给 syslogd 守护 进程 。 

syslogd 守护 进程 把 它 接收 到 的 所 有 消息 添加 进 一 个 文件 中 ， 读 文件 默认 是 Aarlog/messages。 
也 可 以 通过 /etc/syslog.conf 配置 文件 重新 指定 。 

在 启动 klogd 的 时 候 ， 可 以 通过 指定 -c 标志 来 改变 终端 的 记录 等 级 。 


18.3.5 ”从 printf() 到 printk() 的 转换 


当 刚 开始 开发 内 核 代码 的 时 候 ， 往 往 会 把 printkO 输入 成 printf()。 这 很 正常 , 你 无 法 抗拒 多 
年 来 在 用 户 级 程序 中 使 用 printf() 的 习惯 。 幸 而 这 种 错误 不 会 持续 很 长 时 间 ， 反 复出 现 的 链接 错 
误 很 快 就 会 让 你 在 心烦 意 乱 中 开始 培养 新 的 习惯 。 

在 编写 用 户 级 程序 的 时 人 息 ， 你 输入 printf() 的 时 候 不 小 心 输入 了 printk()。 燕 喜 你 ， 成 为 一 个 
真正 的 内 核 黑客 的 时 刻 终于 到 来 了 。 





18.4 oops 
oops 是 内 核 告知 用 户 有 不 幸 发 生 的 最 常用 的 方式 。 由 于 内 核 是 整个 系统 的 管理 者 ， 所 以 它 
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不 能 采取 像 在 用 户 空间 出 现 去 行 错误 时 使 用 的 那些 简单 手段 ， 因 为 它 很 难 自行 修复 ， 它 也 不 能 将 
自己 杀 死 。 内 核 只 能 发 布 opps。 这 个 过 程 包括 向 终端 上 输出 错误 消息 ， 输 出 寄存 器 中 保存 的 信 
息 并 输出 可 供 跟踪 的 回溯 线 兴 。 内 核 中 出 现 的 故障 很 难处 理 ， 所 以 内 核 往往 要 经 历 严峻 的 考验 才 
能 发 送出 oops 和 靠 它 自己 完成 的 一 些 清理 工作 。 通 常 ， 发 送 完 oops 之 后 ， 内 核 会 处 于 一 种 不 稳 
定 状态 。 举 例 来 说 ，oops 发 生 的 时 候 内 核 可 能 正在 处 理 非常 重要 的 数据 。 它 可 能 持 有 一 把 锁 或 
正在 和 硬件 设备 交互 。 内 楼 必须 适当 地 从 当前 的 上 下 文 环境 中 退出 并 尝试 恢复 对 系统 的 控制 。 多 
数 时 候 ， 这 种 尝试 都 会 失败 。 因 为 如 果 oops 在 中 断 上 下 文 时 发 生 ， 内 核 根 本 无 法 继续 ， 它 会 陷 
信息 乱 。 混 乱 的 结 示 了 融 是 头 统 死机 。 如 朱 oops 在 idle 进程 (pid 为 0) 或 init 进 程 (pid 为 1) 时 
发 生 ， 结 妥 同 样 是 系统 陷 人 屁 乱 ， 因 为 内 核 缺 了 这 两 个 重要 的 进程 根本 就 无 法 工作 。 不 过 ， 要 是 
oops 在 其 他 进程 运行 时 发 生 内 核 就 会 杀 死 该 进程 并 尝试 着 继续 执行 。 

oops 的 产生 有 很 多 可 能 原因 ， 其 中 包括 内 存 访 问 越界 或 者 非法 的 指令 等 。 作 为 一 个 内 核 开 
发 者 ， 你 将 会 经 第 处 理 ( 毫 无 疑问 ， 也 将 导致 〉oops。 

紧 接 着 的 是 一 个 oops 骨 实例 ， 它 是 在 一 台 PPC 机 器 上 的 tulip 网 卡 的 定时 器 处 理 函 数 运行 
时 发 生 的 : 

Oopsa: Exception in kermel mode, sig: 4 

Unable to handle kernel NULL pointer dereference at virtual address O00000M001 


NIP: COL3ATFO LR: COl3NFO SP: CO68S5EO00 REGS: cO905d10 TRAP: 0700 

Not tainted 

MSR: O00089037 EE: 1 PR: 0 FF: 0 ME: 1 IR/DR: 11 

TASK = c0712530[0] ‘swpper’ Last syscall: 120 

GEROO: COl13ATCO CO295BE0 CO231530 O000002F 00000001 CO380CBS CO291B80 CO2DOO000 
GPROB: O00012A0 O00000W O0000000 CO292AAD0 A4020A088 O0000000 O0000000 00000000 
GPR16: O0000000 O00000W0 O0000000 00000000 00000000 O0000000 O00000000 00000000 
GPR24: O0000000 O0000005 O00000000 00001032 C3F7ICO00 00000032 FFFFFFFF C3FIC1CO 
Call trace: 

[c013ab30] tulip timerdxl28/0xlc4 

[c0020744] run timer godtirqgt0xl0c/0x164 

[e001b864] do softirqgtiBd/0x104 

[cO007e80] timer intermpt+0x284/0x298 

[e00033c4] ret from exept+0x0/0x34 

[ec0007b84] default idl#0x20/0x60 

[e0007b£8] cpu idlet+0xa/0x39 

[c0003ae8] rest initt+024/0x34 


使 用 PC 的 读者 可 能 对 这 人 么 多 的 寄存 器 感到 惊奇 (居然 有 32 个 之 多 )。 你 可 能 对 x86-32 系 
统 更 熟悉 一 些 ， 在 这 种 系统 上 ，oops 会 简单 一 点 。 但 是 ，oops 中 包含 的 重要 信息 对 于 所 有 体系 
结构 都 是 完全 相同 的 ; 寄 有 器 上 下 文 和 回潮 线索 。 

回 济 线索 显示 了 导致 销 吴 发 生 的 函数 调用 链 。 这 样 我 们 就 可 以 观察 究竟 发 生 了 什么 : 机 器 处 
于 空 闪 状态 ， 正 在 执行 idle 循 环 ， 由 cpu_idle( 循环 调用 default_idle()。 此 时 定时 器 中 断 产生 了 ， 
它 引 起 了 对 定时 器 的 处 理 , tulip timer0 这 个 定时 器 处 理 函 数 被 调用 ， 而 就 是 它 引 用 了 空 指针 。 
甚至 可 以 通过 偏 移 量 ( 像 ml28/0xlc4 这 些 出 现在 函数 左 侧 的 数字 〉 找 出 导致 问题 的 语句 。 

寄存 器 上 下 文 信息 可 前 二 样 有 用 ， 尽 管 使 用 起 来 不 那么 方便 。 如 果 你 有 函数 的 汇编 代码 ， 这 
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些 寄存 器 数据 可 以 帮助 你 重建 引发 问题 的 现场 。 在 寄存 器 中 发 现 一 个 本 不 应 该 出 现 的 数值 可 能 会 
在 黑暗 中 给 你 带 来 第 一 丝光 明 。 在 上 面 的 例子 中 ， 我 们 可 以 查看 是 哪个 寄存 器 包含 了 NULL (一 
个 所 有 位 都 为 零 的 数值 )， 进 而 找 出 是 函数 的 哪个 变量 的 值 不 正常 。 一 般 在 这 种 情况 下 问题 往往 
是 竞争 引起 的 ， 在 本 例 中 ,是 指定 时 器 和 这 块 网 卡 驱动 的 其 他 部 分 之 间 的 竞争 。 调 试 一 个 竞争 条 
件 往往 很 有 挑战 性 。 


18.4.1 ksymoops 


前 面 列举 的 oops 可 以 说 是 一 个 经 过 解码 的 oops， 因 为 内 存 地 址 都 已 经 转换 成 了 它们 对 应 的 
函数 。 下 面 是 其 未 解码 版 本 : 


NIP: CO13ATFO LR: COl3AMFO SP: CO68S5E00 REGS: cOS05d10 TRAP: O0700 

Not tainted 

MSR: O00089037 EE: 1 PR: 0 FP: 0 ME: 1 IR/DR: 11 

TASK = cO0712530[0] "awapper’ Last syscall: 120 

GPROO0: COl3ATCO CO295E00 CO231530 O000002F O0000001 CO380CB8 CO291B880 COZ2DO0000 
GPROS: O00012A0 O0000000 O00000000 CO292AA0 4020A088 O00000000 00000000 00000000 
GER16G: O0000000 O0000000 O0000000 O0000000 O0000000 00000000 00000000 00000000 
GPER24:; O0000000 00000005 O0000000 O0001032 C3F7TCO000 O00000032 FFFFFFFF C3FTC1C0 
Call trace: [c01l3ab30] [e0020744] [e001b864] [cecO007e80] [coO0061c4] 

[e0007b84] 【ec0007bf8] [c0003ae8] 


回溯 线索 中 的 地 址 需要 转化 成 有 意义 的 符号 名 称 才 方便 使 用 。 这 需要 调用 ksymoops 命 
令 ， 并 且 还 必须 提供 编译 内 核 时 产生 的 System.map。 如 全 使 用 的 是 模块 ， 还 需要 一 些 模块 信息 。 
ksymoops 通常 会 自行 解析 这 些 信息 ， 所 以 一 般 可 以 这 样 调用 它 : 


kaymoops saved oops.txt 


然后 该 程序 就 会 吐出 解码 版 的 oops。 如 果 ksymoops 无 法 找到 默认 位 置 上 的 信息 ， 或 者 想 提 
供 不 同 信息 ， 该 程序 可 以 接受 许多 参数 。ksymoops 的 使 用 手册 上 提供 了 许多 说 明 信 息 ， 使 用 之 
前 最 好 先行 查阅 。ksymoops 一 般 会 随 Linux 发 行 版 本 提供 。 


18.4.2 kallsyms 


谢 天 谢 地 ， 现 在 已 经 无 须 使 用 ksymoops 工具 了 ， 这 是 一 个 了 不 起 的 工作 。 因 为 尽管 开发 者 
使 用 它 的 时 候 一 般 很 少 出 现 问题 ， 但 是 最 终 用 户 常常 会 错误 地 匹配 System.map 文件 或 错误 地 对 
oops 进行 解码 。 

开发 版 的 2.5 版 内 核 引 人 了 kallsyms 特性 ， 它 可 以 通过 定义 CONFIG KALLSYMS 配 
置 选项 启用 。 该 选项 存放 着 内 核 镜 像 中 相应 函数 地 址 的 符号 名 称 ， 所 以 内 核 可 以 打印 解码 
好 的 跟踪 线索 。 相 应 地 ， 解 码 oops 也 不 再 需要 System.map 或 者 ksymoops 工具 了 。 但 是 ， 
这 样 做 会 使 内 核 变 大 一 些 ， 因 为 从 函数 的 地 址 到 符号 名 称 的 映射 必须 永久 地 驻 留 在 内 核 所 
上 映射 的 内 存 地 址 上 。 然 而 ,不 管 是 在 开发 的 过 程 中 还 是 在 部 署 的 过 程 中 ， 占 用 这 些 内 存 都 
是 值得 的 。 配 置 选项 CONFIG_KALLSYMS_ALL 表示 不 仅 存 放 函 数 名 称 ， 还 存放 所 有 的 
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符号 名 称 。 但 一 般 只 有 那些 特殊 的 调试 器 才 会 有 此 需要 。CONFIG_KALLSYMS_EXTRA_ 
PASS 选项 会 引起 内 核 构建 过 程 中 再 次 忽略 内 核 的 目标 代码 。 这 个 选项 只 有 在 调试 kallsyms 
本 身 时 才 会 有 用 。 


18.5 ”内 核 调试 配置 选项 


在 编译 的 时 候 ， 为 了 方便 调试 和 测试 内 核 代 码 ， 内 核 提 供 了 许多 配置 选项 。 这 些 选 项 都 
在 内 核 配置 编辑 器 的 内 村 开发 (Kernel hacking) 菜单 项 中 ， 它 们 都 依赖 于 CONFIG_ DEBUG_ 
KERNEL。 当 开发 内 核 的 时 候 ， 作 为 一 种 练习 3， 不妨 打开 所 有 这 些 选项 。 

有 些 选 项 确实 有 用 , 应 该 局 用 slab layer debugging (slab 层 调 试 选项 )、high-memory debugging 
(高 端 内 存 调试 选项 )、IJD mapping debugging (IO 映射 调试 选项 )、spin-lock debugging ( 自 旋 锁 调 
试 选项 ) 和 stackroverfiww checking〈 栈 淤 出 检查 选项 )。 其 中 最 有 用 的 一 个 是 sleep-inside-spinlock 
checking ( 自 旋 锁 内 睡 眼 先 项 )， 这 些 选 项 确实 能 完成 不 少 调试 工作 。 

从 2.5 版 开始 ， 为 1 检查 各 类 由 原子 操作 引发 的 问题 ， 内 核 提 供 了 极 佳 的 工具 。 回 忆 一 下 第 
9 章 ， 原 子 操作 指 那些 能 够 不 分 隔 执行 的 东西 ; 在 执行 时 不 能 中 断 否 则 就 是 完 不 成 的 代码 。 正 在 
使 用 一 个 自 旋 锁 或 禁 上 出 抢占 的 代码 进行 的 就 是 原子 操作 。 在 进行 此 类 操作 的 时 候 ， 代 码 不 能 睡 
眠 一 一 使 用 锁 时 睡眠 是 引发 死 锁 的 元 内 。 

托 内 核 抢占 的 福 , 内 核 提供 了 一 个 原子 操作 计数 器 。 它 可 以 被 配置 成 一 旦 在 原子 操作 过 程 中 
进程 进入 睡眠 或 者 做 了 一些 可 能 引起 睡眠 的 操作 ， 就 打印 警告 信息 并 提供 追踪 线索 。 所 以 ， 包 括 
正 使 用 锁 的 时 候 调 用 sdedule()， 正 使 用 锁 的 时 候 以 阻塞 方式 请 求 分 配 内 存 和 在 引用 单 CPU 数据 
时 睡眠 在 内 ， 各 种 潜在 的 bug 都 能 够 被 探测 到 。 这 种 调试 方法 捕获 了 大 量 bug， 它 也 受到 了 大 家 
极力 推荐 使 用 。 。 

下 面 这 些 选项 可 局 最 大 限度 地 利用 该 特性 : 


CONMFIG PREEMPT=Y 

CONFIG DEBUG KERWL=Y 

CONMFIG KALLSYMS=Y 

CONFIG DEBUG SPINWOCK SLEEP=Y 


18.6 引发 bug 并 打印 信息 


一 些 内 核 调用 可 以 用 来 方便 标记 bug， 提 供 断 言 并 输出 信息 。 最 常用 的 两 个 是 BUG0O 和 
BUG_ONO。 当 被 调用 的 时 候 ， 它 们 会 引发 oops， 导 致 栈 的 回调 和 错误 信息 的 打印 。 这 些 声明 
会 导致 oops 跨 硬 件 的 作 系 结构 是 相关 的 。 大 部 分 体系 结构 把 BUGO 和 BUG_ONO 定义 成 某 种 
韭 法 操作 ， 这 样 自然 会 产生 需要 的 oops。 可 以 把 这 些 调用 当做 断言 使 用 ， 想 要 断言 某 种 情况 不 
该 发 生 时 

if (bad thing) 

BUG(); 


或 者 使 用 更 好 的 开 R& : 


BUG ON (bad thing); 
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多 数 内 核 开发 者 相信 BUG_ON() 比 BUG() 更 清晰 、 更 可 读 ， 而 且 BUG_ON0 会 将 其 声明 作 
为 一 个 语句 放 入 unlikely0 中 。 请 注意 ， 有 些 开 发 者 在 讨论 是 否 能 用 一 个 编译 选项 将 BUG_ON() 
声明 在 编译 时 剔除 ， 以 便 能 在 人 戏 入 内核 中 节约 空间 。 这 就 意味 着 你 可 以 放心 地 使 用 BUG_ONU)， 
而 不 用 担心 BUG_ONO 内 的 声明 可 能 带 来 的 任何 “不 良 反 应 ”。BUILD BUG _ON(0 与 BUG _ 
ONO 作用 相同 ， 仅 在 编译 时 调用 。 如 果 在 编译 阶段 已 提供 的 声明 为 真 ， 那 么 编译 将 会 因为 一 个 
错误 而 中 止 。 

可 以 用 panic() 引发 更 严重 的 错误 。 调 用 panic() 不 但 会 打印 错误 消息 ， 而 且 还 会 挂 起 整个 系 
统 。 显 然 ， 只 应 该 在 最 精 糕 的 情况 下 使 用 它 : 


if (terrible thing) 
panic(l"terrible thing is $ld\n", terrible thing); 
有 些 时 候 ， 只 是 需要 在 终端 上 打印 一 下 栈 的 回 漳 信 息 来 帮助 调试 。 这 个 时 候 ，dump_stack() 
就 很 有 用 了 。 瑟 只 在 终端 上 打印 寄存 锅 上 下 文 和 国 数 的 跟踪 线索 : 
if (!debug check) { 


printk (KERN DEBUG "provide some information...\n"); 
dump stack!{); 
} 


18.7 神奇 的 系统 请 求 键 


神奇 的 系统 请 求 键 (Magic SysRq key) 是 另外 一 根 救命 稻草 ， 该 功能 可 以 通过 定义 
CONFIG_MAGIC_SYSRQ 配置 选项 来 启用 。SysRq (系统 请 求 ) 键 在 大 多 数 键 盘 上 都 是 标准 键 。 
在 i386 和 PPC 上 ， 它 可 以 通过 ALTPrintScreen 访问 。 当 该 功能 被 忆 用 的 时 候 ， 无 论 内 核 处 于 什 
么 状态 ， 都 可 以 通过 特殊 的 组 合 键 跟 内 核 进行 通 信 。 这 种 功能 可 以 让 你 在 面 对 一 台 态 太 一 息 的 系 
统 时 能 完成 一 些 有 用 的 工作 。 

除了 配置 选项 以 外 ， 还 要 通过 一 个 sysctl 用 来 标记 该 特性 的 开 或 关 。 需 要 启用 它 时 使 用 如 下 
命令 时 


echo 1 > /proc/eys/kernel/sysrq 


从 终端 上 ， 你 可 以 输入 Sysrq-h 获取 一 份 可 用 的 选项 列表 。SysRg-s 将 “ 胜 ” 缓 冲 区 跟 硬 盘 
交换 分 区 同步 ，SysRq-u 印 载 所 有 的 文件 系统 ，SysRq-b 重启 设备 。 在 一 行内 发 送 这 三 个 键 的 组 
合 可 以 重新 启动 烽 临 死亡 的 系统 ， 这 比 直接 按 下 机 器 的 Reset 键 要 安全 一 些 。 

如 果 机 器 已 经 完全 锁 死 了 ， 它 也 可 能 不 会 再 响应 神奇 系统 请 求 键 ， 或 者 无 法 完成 给 定 的 命 
令 。 不 过 如 果 运 气 稍 好 的 话 ， 这 些 选 项 或 许可 以 保存 数据 或 者 进行 调试 。 表 18-2 列举 了 所 有 支 
持 的 系统 请 求 命 令 。 

内 核 代码 中 的 Documentation/sysrq.txt 对 此 有 更 详细 的 说 明 。 实 际 的 实现 在 drivers/char/ 
sysrq.c 中 。 神 奇 系统 请 求 键 是 调试 和 挽救 垂危 系统 所 必需 的 一 种 工具 。 由 于 该 功能 对 终端 上 的 任 
何 用 户 都 提供 服务 ， 所 以 在 重要 的 机 器 上 启用 它 需 要 三 思 而 行 。 可 是 对 于 自己 用 于 开发 的 机 器 ， 
启用 它 确实 帮助 很 大 。 
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表 18-2 支持 SysRq 的 命令 


主要 命令 描 述 

SysRq-b 重新 启动 机 器 

SysRq-e 向 init 以 外 的 所 有 进程 发 送 SIGTERM 信号 

SysRq-h 在 控制 台 显 示 SysRq 

SysRq-i | 向 init 以 外 的 所 有 进程 发 送 SIGKILL 信号 

SysRq-k 安全 访问 键 : 杀 死 这 个 控制 台 上 的 所 有 程序 
SysRq] 向 包括 init 的 所 有 进程 发 送 SIGKILL 信号 

SysRq-m 把 内 存 信息 输出 到 控制 台 

SysRq-o 关闭 机 器 

SysRq-p 把 寄存 器 的 信息 输出 到 控制 台 

SysRq-r 关闭 键盘 原始 模式 

SysRq-s 把 所 有 已 安装 文件 系统 都 刷新 到 磁盘 

SysRq-t 把 任务 信息 输出 到 控制 台 

SysRq-u 印 载 所 有 已 加 载 文 件 系统 


18.8 ”内 核 调试 器 的 传奇 


很 多 内 核 开发 者 一 直 以 来 都 希望 能 拥有 一 个 用 于 内 核 的 调试 器 。 不 幸 的 是 ，Linus 不 愿意 在 
它 的 内 核 源 代 码 树 中 加 入 一 个 调试 器 。 他 认为 调试 器 会 误导 开发 者 ， 从 而 导致 引 人 不 良 的 修正 。 
没有 人 能 对 他 的 你 辑 提出 异议 一 一 从 真正 理解 代码 出 发 ， 确 实 更 能 保证 修正 的 正确 性 。 然 而 ， 许 
多 内 核 开发 者 们 还 是 希望 有 一 个 官方 发 布 的 、 用 于 内 核 的 调试 器 。 因 为 这 个 要 求 看 起 来 不 会 马上 
被 请 足 ， 所 以 许多 补丁 应 运 而 生 了 ， 它 们 为 标准 内 核 附加 上 了 内 核 调试 的 支持 。 虽 然 这 都 是 一 些 
不 被 官方 认可 的 附加 补丁 ， 但 它们 确实 功能 完善 ， 十 分 强大 。 在 我 们 深入 这 些 解 决 方案 之 前 ， 先 
看 看 标准 的 Linux 调试 器 gdb 能 够 给 我 们 一 些 什么 帮助 是 一 个 不 错 的 选择 。 


18.8.1 gdb 
可 以 使 用 标准 的 GNU 调试 器 对 正在 运行 的 内 核 进行 查看 。 针 对 内 核 局 动 调试 器 的 方法 与 针 
对 进程 的 方法 大 致 相同 : 


gdb vmlinux /proc/kcore 


其 中 vmlinux 文件 是 未 经 压缩 的 内 核 映像 ， 不 是 压缩 过 的 zImage 或 bzImage， 它 存放 在 源 
代码 树 的 根 目录 上 。 

/proc/kcore 作为 一 个 参数 选项 ， 是 作为 core 文件 来 用 的 ， 通 过 它 能 够 访问 到 内 核 驻 留 的 高 
端 内 存 。 只 有 超级 用 户 才能 读 取 此 文件 的 数据 。 

可 以 使 用 gdb 的 所 有 命令 来 获取 信息 。 举 个 例子 ， 为 了 打印 一 个 变量 的 值 ， 你 可 以 用 下 面 
的 命令 : 


互 global wariable 
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反 汇 编 一 个 函数 : 


disassemble function 


如 果 编 译 内 核 的 时 候 使 用 了 -g 参数 (在 内 核 的 Makefile 文件 的 CFLAGS 变量 中 加 入 -g)， 
gdb 还 可 以 提供 更 多 的 信息 。 比 如 ， 你 可 以 打印 出 结构 体 中 存放 的 信息 或 是 跟踪 指针 。 当 然 ， 编 
译 出 的 内 核 会 大 很 多 ， 所 以 不 要 把 编译 带 调 试 信 息 的 内 核 当做 一 种 习惯 。 

接 下 来 ， 就 要 说 不 幸 的 那 一 面 了 , gdb 还 是 有 很 多 局 限 性 的 。 它 没有 任何 办 法 修改 内 核 数 据 。 
它 也 不 能 单 步 执行 内 核 代 码 ， 不 能 加 断 点 。 不 能 修改 内 核 数据 是 个 非常 大 的 缺陷 。 尽 管 在 必要 时 
反 汇 编 函 数 无 疑 是 个 非常 有 用 的 功能 ， 但 是 能 够 修改 数据 的 却 更 为 有 用 。 


18.8.2 kgdb 


kgdb 是 一 个 补丁 ， 它 可 以 让 我 们 在 远 端 主机 上 通过 串口 利用 gdb 的 所 有 功能 对 内 核 进行 
调试 。 这 需要 两 台 计 算 机 : 第 一 台 运 行 带 有 kgdb 补丁 的 内 核 ， 第 二 台 通 过 串 行 线 〈 不 通过 
modem， 直 接连 接 两 台 机 器 的 电缆 ) 使 用 gdb 对 第 一 台 进 行 调试 。 通 过 kgdb、gdb 的 所 有 功能 都 
能 使 用 : 读 取 或 修改 变量 值 ， 设 置 断 点 ， 设 置 关注 变量 ， 单 步 执行 等 。 某 些 版 本 的 gdb 甚至 允许 
执行 国 数 。 

设置 kgdb 和 连接 串 行 线 比较 麻烦 ， 但 是 一 旦 做 完了 ， 调 试 就 变 得 很 简单 了 。 访 补丁 会 在 
Documentation/ 目录 下 安装 很 多 说 明文 件 ， 可 以 把 它们 挑 出 来 研究 一 下 。 

不 同体 系 结构 、 不 同 内 核 版 本 使 用 的 kgdb 由 不 同 的 人 员 维 护 ， 为 了 给 需要 调试 的 内 核 找到 
合适 的 补丁 ， 还 是 在 网 上 搜索 一 下 比较 好 。 


18.9 探测 系统 


如 果 对 内 核 调试 有 丰 官 的 经 验 的 话 ， 那 么 你 会 掌握 一 些 诀 窒 来 帮助 你 更 进一步 地 探测 系统 从 
而 找到 想 要 的 答案 。 内 核 调试 很 有 挑战 性 ， 即 使 是 一 点 小 的 上 暗示 或 者 技巧 都 能 给 你 很 大 的 帮助 。 
我 们 最 好 把 它们 联系 起 来 。 


18.9.1 用 UID 作为 选择 条 件 


如 果 你 开发 的 是 进程 相关 的 部 分 ， 有 些 时 候 ， 你 可 以 在 提供 替代 物 的 同时 不 打破 原 有 代码 的 . 
可 执行 性 。 这 在 你 重 写 重要 系统 调用 的 时 候 ， 或 者 在 你 希望 进行 调试 时 系统 功能 依旧 健全 的 情况 
下 非常 有 用 。 

举 个 例子 ， 假 设 为 了 加 入 一 个 激动 人 心 的 新 特性 ， 你 重 写 了 fork0 系统 调用 。 除 非 第 一 次 的 
尝试 就 完美 无 缺 ， 否 则 系统 调试 就 是 一 场 下 梦 。 如 果 fork0 系统 调用 不 正常 的 话 ， 压 根 就 不 用 指 
望 整个 系统 还 能 正常 工作 。 当 然 ， 和 任何 时 候 一 样 ， 希 望 总 是 存在 的 。 

一 般 情 况 下 ， 只 要 保留 原 有 的 算法 而 把 你 的 新 算法 加 入 到 其 他 位 置 上 ， 基 本 就 能 保证 安全 。 
可 以 利用 把 用 户 id (UID) 作为 选择 条 件 来 实现 这 种 功能 ， 通 过 这 种 选择 条 件 ， 可 以 安排 到 底 执 
行 哪 种 算法 : 
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if ueent = wid 1= 7777) 1 
/* 老 算 法 ... */ 

} else { 
/* 新 算法 ... */ 


除了 UID 为 7777 以 外 ， 其 他 所 有 的 用 户 都 用 的 是 老 算 法 。 可 以 创建 一 个 UID 为 7777 的 用 
户 ， 专 门 来 测试 新 算法 。 对 于 要 求 很 严格 的 进程 相关 部 分 的 代码 来 说 ， 这 种 方法 使 得 测试 变 得 容 
易 了 许多 。 


18.9.2 ”使 用 条 件 变 量 


如 打 代 码 与 进程 无 关 ， 或 者 希望 有 一 个 针对 所 有 情况 都 能 使 用 的 机 制 来 控制 茶 个 特性 ， 可 
以 使 用 条 件 变量 。 这 上 比 使 用 UID 还 来 得 简单 ， 只 需要 创建 一 个 全 局 变量 作为 一 个 条 件 选择 开关 。 
如 果 该 变量 为 零 ， 束 使 用 一 个 分 支 上 的 代码 。 如 果 它 不 为 零 ， 就 选择 另外 一 个 分 支 。 可 以 通过 某 
种 接口 提供 对 这 个 变量 的 操控 ， 也 可 以 直接 通过 调试 器 进行 操控 。 


18.9.3 ”使 用 统计 重 


有 些 时 候 你 需要 掌握 某 个 特定 事件 的 发 生 规律 。 有 些 时 候 需 要 比较 多 个 事件 并 从 中 得 出 规 
律 。 通 过 创建 统计 量 并 提供 某 种 机 制 访问 其 统计 结果 ， 很 容易 就 能 满足 这 种 需求 。 

举 个 例子 ， 假 设 我 们 希望 得 到 foo 和 bar 的 发 生 频 率 ， 那 么 在 某 个 文件 中 ， 当 然 最 好 是 在 定 
义 该 事件 的 那个 文件 里 ， 定 义 两 个 全 局 变量 : 


unsigned long foo stat = 0; 
unsigned long bar stat = 0; 


每 当 事 件 发 生 的 时 候 ， 就 让 相应 的 变量 加 1。 然 后 在 觉得 合适 的 地 方 输出 它 。 比 如 ， 可 以 在 
/proc 目录 中 创建 一 个 文件 ， 还 可 以 新 创建 一 个 系统 调用 。 最 简单 的 办 法 当然 还 是 通过 调试 器 直 
接 访 问 它们 。 

注意 ， 这 种 实现 并 非 是 SMP 安全 的 。 理 想 的 办 法 是 通过 原子 操作 进行 实现 。 但 是 仅仅 对 于 
一 个 简单 的 每 次 加 1 的 调试 统计 量 ， 一 般 无 须 搞 得 这 人 么 麻烦 。 


18.9.4 重复 频率 限制 


为 了 发 现 一 个 错误 ， 开 发 者 们 往往 在 代码 的 某 个 部 分 加 入 很 多 错误 检查 语句 《多数 对 应 的 
都 是 一 些 打印 语句 )。 在 内 核 中 ， 有 些 国 数 每 秒 都 要 被 调用 很 多 次 。 如 果 你 在 这 样 的 函数 中 加 
人 了 prinkO0， 那 么 系统 马上 就 会 被 显示 调试 信息 这 一 个 任务 压 得 喘 不 过 气 来 ， 很 快 就 什么 也 干 
不 成 了 。 

有 两 种 相关 的 技巧 可 以 用 来 防止 此 类 问题 的 发 生 。 第 一 种 是 重复 频率 限制 ， 如 果 某 种 事 
件 发 生 的 非常 频 莹 ， 而 又 需要 观察 它 的 整体 进展 情况 ， 就 可 以 让 这 种 技巧 施展 身手 了 。 为 了 
避免 调试 信息 发 生 井 喷 ， 可 以 每 隔 几 秒 执行 一 次 打印 〈 或 者 是 其 他 任何 你 想 完 成 的 操作 )。 
举 个 例子 : 
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static unsigned long prev jiffy = jiffies,; /* 频率 限制 */ 


if {time after(jiffies, prev jiffy + 2*H2)) { 
prev jiffy = jiffies; 
Printk (KERN ERR "blah blah blah\n"),; 
} 
此 例 中 ， 调 试 信息 最 多 两 秒 打 印 一 次 。 这 可 以 让 你 的 终端 不 至 于 被 注 涌 而 至 的 调试 信息 洪流 
充 塞 ， 也 保证 你 的 系统 依旧 能 用 。 完 全 可 以 根据 自己 的 需要 ， 或 低 或 高 地 调整 这 种 重复 频率 。 
如 果 只 使 用 printk0， 可 以 用 一 个 特殊 的 函数 去 限制 printk( 的 调用 频率 : 


if (error && printk ratelimit!()) 
Printk (KERN DEBUG "error=%d\n", error),} 


如 果 频 率 限 制 生 效 ， 那 么 printk_ratelimit() 返回 0; 否则 ， 返 回 非 0。 上 默认 情况 下 ， 此 函数 
限制 每 5 秒 产生 一 条 信息 ， 但 是 在 施加 这 一 条 件 之 前 ， 可 以 让 起 始 频率 为 10 条 信息 。 可 以 通过 
printk_ratelimit 和 printk ratelimit burst sysctl 来 调整 这 些 参 数 。 

男 一 种 棘手 的 问题 是 你 如 何 确认 在 特定 情况 下 某 段 代码 确实 被 执行 了 。 与 前 面 的 例子 不 同 ， 
你 想 观察 的 不 是 一 个 实时 通知 。 如 果 这 种 通知 在 被 触发 一 次 之 后 依旧 不 停 地 到 来 ， 那 就 比较 麻烦 
了 。 下 面 这 种 技巧 针对 的 融 不 再 是 如 何 限制 重复 频率 了 ， 它 要 实现 的 是 发 生 次 数 限制 。 


static unsigned long limit = 0; 


if (limit < 5) 1 
1imit++; 
printk (KERN ERR "blah blah blah\n"); 


此 例 中 ， 调 试 信息 输出 5 次 就 封顶 了 。5 次 之 后 ， 打 印 条 件 总 是 不 能 成 立 。 

不 管 是 上 面 提 到 的 哪个 示例 ， 用 到 的 变量 都 应 该 是 静态 的 〈static)， 并 且 应 该 限制 在 函数 的 
局 部 范围 以 内 ， 这 样 才能 保证 变量 的 值 在 经 历 多 次 函数 调用 后 仍然 能 够 保留 下 来 。 

这 些 例 子 的 代码 都 不 是 SMP 或 抢占 安全 的 ， 不 过 ， 只 需要 用 原子 操作 改造 一 下 就 设 问题 
了 。 不 过 ， 对 于 一 个 临时 的 调试 检测 来 说 ， 没 必要 搞 得 这 么 复杂 。 


18.10 用 二 分 查找 法 找 出 引发 罪恶 的 变更 


知道 bug 是 什么 时 候 引 入 内 核 源 代码 的 通常 都 是 很 有 用 的 。 如 果 你 知道 2.6.33 版 中 出 现 了 
一 个 bug， 而 能 肯定 2.4.29 中 没有 ， 那 么 就 能 够 很 容易 地 对 引发 这 个 bug 的 代码 变更 进行 定位 。 
消灭 bug 变 得 睡 手 可 得 一 一 要 么 取消 这 个 变更 ， 要 么 对 其 进行 修正 。 

可 是 ， 很 多 时 候 并 不 知道 到 底 是 哪个 内 核 版 本 引入 了 bug。 你 知道 当前 版 本 里 bug 是 确 确实 
实 存 在 的 ， 不 过 ， 它 好 像 就 是 存在 于 当前 版 本 中 。 只 需要 花 一 点 点 力气 ， 就 能 找 出 引发 问题 的 代 
码 变 更 了 。 元 办 在 手 ， 消 灭 bug 就 指日可待 了 。 

一 开始 ， 需 要 一 个 可 靠 的 可 复制 的 错误 ， 最 好 是 系统 一 启动 就 能 查证 的 bug。 接 下 来 ， 需 要 
一 个 能 确保 设 问 题 的 内 核 〈 你 应 该 能 够 找到 )。 举 个 例子 ， 你 知道 几 个 月 前 的 内 核 设 有 这 种 错误 ， 
那么 就 从 那 时 使 用 的 内 核 中 选取 一 个 。 如 果 发 现 问 题 ， 说 明 那 时 就 存在 了 ， 那 就 找 更 早 的 。 找 到 
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不 含 该 bug 的 内 核 应 该 不 会 太 难 。 

接 下 来 需要 一 个 肯定 有 问题 的 内 核 。 为 了 简单 起 见 ， 应 该 从 已 知 最 早出 现 该 问题 的 内 核 开 始 。 

现在 ， 你 就 可 以 在 问题 内 核 和 良好 的 内 核 之 间 使 用 二 分 法 了 。 举 个 例子 ， 假 定 确 保 没 有 问 
题 的 内 核 版 本 是 2.6.11， 有 问题 的 内 核 版 本 是 2.6.20。 从 二 者 的 正中 选取 一 个 内 核 版 本 ， 比 如 说 
2.6.15。 检 查 2.6.15 是 否 包 含 此 bug。 如 果 2.6.15 没有 问题 , 那么 就 知道 错误 是 发 生 在 此 版 本 之 
后 了 。 所 以 ， 再 从 2.6.15 开始 ， 在 它 和 2.6.20 正中 选取 下 一 个 版 本 ， 比 如 说 对 2.6.17 进行 检查 。 
如 果 2.6.15 有 问题 ， 那 么 错误 就 可 能 发 生 在 此 版 本 之 前 了 ， 那 么 就 该 选 2.6.13 作为 下 一 个 待 查 目 
标 了 。 就 这 样 重复 饰 选 。 

最 终 你 肯定 能 把 问题 局 限 在 两 个 相继 发 行 的 版 本 之 则 一 一 一 个 包含 错误 而 另外 一 个 不 包含 。 
你 就 能 够 很 容易 地 对 引发 这 个 bug 的 代码 变更 进行 定位 。 

这 种 方式 比 依 次 对 每 个 版 本 的 内 核 进 行 核查 要 好 得 多 。 


18.11 ”使 用 Git 进行 二 分 搜索 

Git 源码 管理 工具 提供 了 一 个 有 用 的 二 分 搜索 机 制 。 如 果 你 使 用 Git 来 控制 Linux 源码 树 的 
副本 ， 那 么 Git 将 自动 运行 二 分 搜索 进程 。 此 外 ，Git 会 在 修订 版 本 中 进行 二 分 搜索 ， 这 样 可 以 
找到 具体 哪 次 提交 的 代码 引发 了 bug。 很 多 Git 相关 的 任务 比较 繁杂 ， 但 使 用 Git 进行 二 分 搜索 
并 不 那么 的 困难 。 一 开始 ， 你 得 告诉 Git 你 要 进行 二 分 搜索 : 


$ git bisect start 


然后 再 为 Git 提供 一 个 出 现 问 题 的 最 早 内 核 版 本 : 


$$ git bisect bad <revision> 


如 果 当 前 的 内 核 版 本 就 是 ?| 发 bug 的 罪 抽 祸首， 那么 就 不 必 提 供 内 核 版 本 : 


$$ 9it bjsect bad 


然后 ， 还 得 为 Git 提供 一 个 最 新 的 可 正常 运行 的 内 核 版 本 : 
$$ git bisect good v2.6.28 
接 下 来 ，Git 将 会 利用 二 分 搜索 法 在 Linux 源码 树 中 ， 自 动 检测 正常 的 内 核 版 本 和 有 bug 的 


内 核 版 本 之 间 哪 个 版 本 有 隐患 。 接 着 再 编译 、 运 行 以 及 而 试 正 被 检 副 的 版 本 。 如 果 这 个 版 本 一 切 
正常 ， 可 以 运行 下 面 的 命令 : 
$ git bisect good 
如 果 这 个 版 本 运行 有 异常 一 一 也 就 是 说 ， 如 果 证 明 这 个 给 定 的 内 核 版 本 有 bug， 可 以 运行 : 
$ git bisect bad 
对 于 每 一 条 命令 ，Git 将 在 每 一 个 版 本 的 基础 上 反复 二 分 搜索 源码 树 ， 并 且 返 回 所 查 的 下 一 


个 内 核 版 本 。 这 个 过 程 需 要 反复 执行 直到 不 能 再 进行 二 分 搜索 为 止 。Git 将 最 终 打 印 出 有 问题 的 
版 本 号 。 
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这 本 应 该 是 一 个 福 长 的 过 程 ， 但 是 Git 使 得 这 一 过 程 变 得 容易 起 来 。 如 果 你 已 经 知道 引发 
bug 的 源 ( 比 如，x86 机 型 的 局 动 代码 )， 你 可 以 指定 git 仅仅 在 与 错误 相关 的 目录 列表 中 去 二 分 
搜索 提交 的 补丁 。 


$ git bisect start - arch/xaé6 


18.12 当 所 有 的 努力 都 失败 时 : 社区 


或 主 你 已 经 做 完了 所 有 你 能 想到 的 尝试 。 你 在 键盘 上 呕心沥血 了 几 个 小 时 实际 上 ， 可 能 
是 无 数 日 子 ， 答 案 依旧 没有 养 顾 你 。 此 时 ， 如 果 bug 是 在 Linux 内 核 的 主流 部 分 中 ， 你 可 以 在 内 
核 开 发 社区 中 寻求 其 他 开发 者 的 帮助 。 

你 应 该 向 内 核 邮 件 列表 发 送 一 份 电子 邮件 ， 对 bug 进行 完整 而 又 简洁 地 描述 ， 你 的 发 现 可 
能 会 对 找到 最 终 的 答案 起 到 帮助 。 毕 竟 ， 没 人 和 希望 bug 存在 。 

第 20 章 将 会 重点 推荐 社区 和 它 最 重要 的 论坛 一 一 Linux 内 核 邮件 列表 (LKML)。 


18.13 小结 


本 章 讨论 了 内 核 的 调试 一 一 调试 过 程 其 实 是 一 种 寻求 实现 与 目标 偏差 的 行为 。 我 们 考察 了 几 
种 技术 : 从 内 核 内 置 的 调试 架构 到 调试 程序 ， 从 记录 日 志 到 用 git 二 分 法 查找 。 因 为 调试 Linux 
内 核 困 难 重重 ， 非 调试 用 户 程 序 能 比 ， 因 此 ， 本 章 的 资料 对 于 试图 在 内 核 代码 中 牛刀 小 试 的 任何 
人 都 至 关 重 要 。 
我 们 将 在 第 19 章 涉及 另外 的 话题 : Linux 内 核 的 可 移植 性 。 
不 要 止步 ! 





第 49 章 
可 和 袍 植 性 


Limx 是 一 个 可 移植 性 非常 好 的 操作 系统 ， 它 广泛 支持 许多 不 同体 系 结构 的 计算 机 。 可 移 
植 性 是 指 代 码 从 一 种 体系 结构 移植 到 另外 一 种 不 同 的 体系 结构 上 的 方便 程度 。 我 们 都 知道 Linux 
是 可 移 秆 的 ， 因 为 它 已 经 能 够 在 各 种 不 同 的 体系 结构 上 运行 了。 但 这 种 可 移植 性 不 是 途 空 得 来 
的 一 需要 在 编写 可 移植 代码 时 就 为 此 付出 努力 并 坚持 不 懈 。 现 在 ， 这 种 努力 已 经 开始 得 到 回报 
了 ， 移 秆 Linux 到 新 的 系统 上 就 很 容易 (相对 来 说 ) 完成 。 本 章 中 我 们 将 讨论 如 何 编写 可 移植 的 
代码 -一 编写 内 核 代 码 和 红 动 程序 时 ， 几 须 时 刻 牢 记 这 个 问题 。 


19.1 可 移植 操作 系统 


有 些 操作 系统 在 设计 时 把 可 移植 性 作为 头等 大 事 之 一 ， 尽 可 能 少 地 涉及 与 机 器 相关 的 代 
码 。 汇 篇 代码 用 得 少 之 又 少 ， 为 了 支持 各 种 不 同类 别 的 体系 结构 ， 界 面 和 功能 在 定义 时 都 尽 基 
大 可 能 地 具有 普 适 性 和 抽象 性 。 这 么 做 最 显著 的 回报 就 是 需要 支持 新 的 体系 结构 时 ， 所 需 完 成 
的 工作 要 相对 容易 许多 。 一 些 移植 性 非常 高 而 本 身 又 比较 简单 的 操作 系统 在 支持 新 的 体系 结构 
时 ， 可 能 只 需要 为 此 体系 结构 编写 几 百 行 专门 的 代码 就 行 了 。 问 题 在 于 ， 体 系 结构 相关 的 一 些 
特性 往往 无 站 被 支持 ， 也 不 能 对 特定 的 机 器 进行 手动 优化 。 选 择 这 种 设计 ， 就 是 利用 代码 的 性 
能 优化 能 力 换 取代 码 的 可 移植 性 。Minix、NetBSD 和 许多 研究 用 的 系统 就 是 这 种 高 度 可 移植 操 
作 系统 的 实例 。 

与 之 相反 ， 还 有 一 种 操作 系统 完全 不 顾及 可 移植 性 ， 它 们 尽 最 大 的 可 能 追求 代码 的 性 能 表 
现 ， 尽 可 能 多 地 使 用 汇编 代码 ， 压 根 就 是 只 为 在 一 种 硬件 体系 结构 使 用 。 内 核 的 特性 都 是 围绕 硬 
件 提供 的 特性 设计 的 。 因 此 ， 将 其 移植 到 其 他 体系 结构 就 等 于 再 重新 从 头 编写 一 个 新 的 操作 系统 
内 核 ,而且 即便 进行 移植 ， 这 种 操作 系统 在 其 他 体系 结构 上 也 会 不 适用 。 选 择 这 种 设计 ， 就 是 用 
代码 的 可 移植 性 换取 代码 的 性 能 优化 能 力 。 这 样 的 系统 往往 比 移植 性 好 的 系统 更 难 维护 。 当 然 ， 
这 种 系统 对 性 能 的 要 求 不 见得 比 对 可 移植 性 系统 更 强 ， 不 过 它们 还 是 愿意 牺牲 可 移植 性 ， 而 不 乐 
意 让 设计 打折 扣 。DOS 和 Windows 95 便 是 这 种 设计 方案 的 最 好 例证 。 

Linux 在 可 移植 性 这 个 方面 走 的 是 中 间 路 线 。 差 不 多 所 有 的 接口 和 核心 代码 都 是 独立 于 硬件 
体系 结构 的 C 语言 代码 。 但 是 ， 在 对 性 能 要 求 很 严格 的 部 分 ， 内 核 的 特性 会 根据 不 同 的 硬件 体 
系 进行 衣 整 。 举例 来 说 ， 需 要 快速 执行 的 和 底层 的 代码 都 与 硬件 相关 并 且 是 用 汇编 语言 写成 的 。 
这 种 实现 方式 使 Linux 在 保持 可 移植 性 的 同时 兼顾 对 性 能 的 优化 。 当 可 移植 性 妨碍 性 能 发 挥 的 时 
候 ， 往 入 性 能 会 被 优先 孝 虑 。 除 此 之 外 ， 代 码 就 一 定 要 保证 可 移植 性 。 

一 般 来 说 ， 暴 露 在 外 的 内 核 接口 往往 是 与 硬件 体系 结构 无 关 的 。 如 果 函 数 的 任何 部 分 需要 针 
对 特殊 的 体系 结构 〈 无 论 是 出 于 优化 的 目的 还 是 作为 一 种 必需 的 选择 ) 提供 支持 的 时 候 ， 这 些 部 
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分 都 会 被 安置 在 独立 的 函数 中 ， 等 待 调用 。 每 种 被 支持 的 体系 结构 都 实现 了 一 个 与 体系 结构 相关 
的 函数 ， 而 且 会 链接 到 内 核 映像 之 中 。 

调度 程序 就 是 一 个 好 例子 。 调 度 程序 的 主体 程序 存放 在 kemel/sched.c 文件 中 ， 用 C 语言 
编写 ， 与 体系 结构 无 关 。 可 是 ， 调 度 程序 需要 进行 的 一 些 工 作 ， 比 如 说 切换 处 理 器 上 下 文 和 切 
换 地 址 空间 等 ， 却 不 得 不 依靠 相应 的 体系 结构 完成 。 于 是 ， 内 核 用 C 语言 编写 了 函数 context_ 
switch() 用 于 实现 进程 切换 ， 而 在 它 的 内 部 ， 则 会 调用 switch_ to0 和 switch_mmg 分 别 完成 处 理 
器 上 正文 和 地 址 空间 的 切换 。 

而 对 于 Linux 支持 的 每 种 体系 结构 ， 它 们 的 switch_to0 和 switch_ mm() 实现 都 各 不 相 
同 。 所 以 ， 当 Linux 需要 移植 到 新 的 体系 结构 上 的 时 候 ， 只 需要 重新 编写 和 提供 这 样 的 函数 
就 可 以 了 。 

与 体系 结构 相关 的 代码 都 存放 在 arch/architecture/ 目录 中 ，architecture 是 Linux 支持 的 体系 
结构 的 简称 。 比 如 说 ，Intel x86 体系 结构 对 应 的 简称 是 x86 〈 这 种 体系 结构 既 支持 x86-32 又 支持 
x86-64)。 与 这 种 体系 结构 相关 的 代码 都 存放 在 arch/x86 目录 下 。2.6 系列 内 核 支 持 的 体系 结构 
包括 alpha、arm、avr32、blackfin、cris、frv、h8300、ia64、m32r、m68k、m68knommu、mips、 
mnl10300、parisc、powerpc、3390、sh、sparc、um、Xx86 和 xtensa.。 本 章 稍 后 给 出 的 表 19-1 是 一 
份 更 详尽 的 清单 。 


19.2 Linux 移植 史 


当 Linus 最 初 把 Linux 带 到 这 个 无 法 预测 的 大 千 世 界 的 时 候 ， 它 只 能 在 i386 上 运行 。 尽 管 
这 个 操作 系统 通用 性 很 强 ， 代 码 也 写 得 不 错 ， 可 是 可 移植 性 在 那 时 算 不 上 是 一 个 关注 焦点 。 实 
际 上 ，Linus 还 一 度 建议 让 Linux 只 在 i386 体系 结构 上 驰 驮 。 不 过 ， 人 们 还 是 在 1993 年 开始 
把 Linux 向 Digital Alpha 体系 结构 上 移植 了 。Digital Alpha 是 一 种 高 性 能 现代 计算 机 体系 结 
构 ， 它 支持 RISC 和 64 位 寻 址 。 这 与 Linus 最 初 选 的 1386 无 疑 是 天 壤 之 别 。 虽 然 如 此 ， 基 
初 的 这 次 移植 工作 最 终 还 是 伦 了 将 近 一 年 时 间 ，Alpha 机 成 为 了 i386 后 第 一 个 被 官方 支持 的 
体系 结构 。 万 事 开 头 难 ， 这 次 移植 的 挑战 性 是 最 大 的 ， 为 了 提高 可 移植 性 ， 内 核 中 不 少 代 码 
都 被 重 委 了 人 S。 尽 管 这 给 整个 移植 带 来 了 不 小 的 工作 量 ， 可 是 效果 是 显著 的 ， 自 此 以 后 ， 移 杆 
变 得 简单 轻松 多 了 。 

尽管 第 一 个 发 行 版 只 支持 Intel i86， 但 1.2 版 的 内 核 就 可 以 支持 Digital Alpha、Intel x86、 
MIPS 和 SPARC 一 一 虽然 支持 的 不 是 很 完善 ， 而 且 带 些 试 验 性 质 。 

在 2.0 版 内 核 中 ， 加 人 了 对 Motorola 68K 和 PowerPC 的 官方 支持 ， 而 原 1.2 版 支持 的 体系 
结构 也 纳入 了 官方 支持 的 范畴 ， 并 且 稳 定 下 来 。 

2.2 版 内 核 加 入 了 对 更 多 体系 结构 的 支持 ， 新 增 了 对 ARMS、IBM S390 和 UltraSPARC 的 支 
持 。 没 过 几 年 ，2.4 版 内 核 支持 的 体系 结构 就 达到 了 15 个 ， 像 CRIS、IA_64、64 位 MIPS、HP 
PA RISC、64 位 IBM S/390 和 Hitachi SH 都 被 加 进来 了 。 


日 ”在 内 核 开 发 中 这 很 普遍 。 如 果 打 算 做 一 件 事 ， 那 么 就 要 把 它 做 好 。 为 了 追求 完美 ， 内 核 开 发 者 们 是 决 不 会 介 
意 重 写 大 段 代 码 的 。 
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当前 的 2.6 内核 把 体系 结构 的 数目 进一步 提高 到 了 21 个 ， 有 不 含 MMU 的 AVR、FR-V 和 
Motorola 68k 以 及 M32xxx、H8/300、IBM POWER、Xtensa， 其 至 还 提供 了 用 户 模式 (Usermode) 
Linux (一 个 在 Linux 虚拟 机 上 运行 的 内 核 版 本 )。 

每 一 种 体系 结构 本 身 就 可 以 支持 不 同 的 芯片 和 机 型 。 像 被 支持 的 ARM 和 PowerPC 等 体系 
结构 ， 它 们 就 可 以 支持 很 多 不 同 的 芯片 和 机 型 。 其 他 的 体系 结构 ， 比 如 说 x86 和 SPARC， 它 们 
可 以 支持 32 位 和 64 位 不 同 的 处 理 器 。 所 以 说 ， 尽 管 Linux 移植 到 了 21 种 基本 体系 结构 上 ， 但 
实际 上 可 以 运行 它 的 机 器 的 数目 要 大 得 多 。 


19.3 字 长 和 数据 类 型 


能 够 由 机 器 一 次 完成 处 理 的 数据 称 为 字 。 这 和 我 们 在 文档 中 用 字符 (8 位 ) 和 页 (许多 字 ， 
通常 是 4KB 或 8KB) 来 计量 数据 是 相似 的 。 字 是 指 位 的 整数 数目 一 一 比如 说 ，1、2、4 或 8 等 。 
但 人 们 说 某 个 机 器 是 多 少 “ 位 ”的 时 候 ， 他 们 其 实说 的 就 是 该 机 器 的 字 长 。 比 如 说 ， 当 人 们 说 
Intel i7 是 64 位 芯片 时 ， 他 们 的 意思 是 奔腾 的 字 长 为 64 位 ， 也 就 是 8 字 忆 。 

处 理 器 通用 寄存 器 (general-purpose registers，GPR) 的 大 小 和 它 的 字 长 是 相同 的 。 一 般 来 
说 ， 对 于 一 个 体系 结构 ， 它 各 个 部 件 的 宽度 比如 说 内 存 总 线 ) 最 少 要 和 它 的 字 长 一 样 大 。 虽 然 
物理 地 址 空间 有 时候 会 比 字 长 小 ， 但 虚拟 地 址 空间 的 大 小 也 等 于 字 长 ， 至 少 Linux 支持 的 体系 结 
构 中 都 是 这 样 的 日 。 此 外 ，C 语言 定义 的 long 类 型 总 是 对 等 于 机 器 的 字 长 ， 而 int 类 型 有 时 会 比 
字 长 小 。 比 如 说 ，Alpha 是 64 位 机 器 ， 所 以 它 的 寄存 器 、 指 针 和 long 类 型 都 是 64 位 长 度 的 ， 而 
int 类 型 是 32 位 的 。Alpha 机 每 一 次 可 以 访问 和 操作 一 个 64 位 长 的 数据 。 

字 、 双 字 以 及 混合 
有 些 操作 系统 和 处 理 器 不 把 它们 的 标准 字 长 称 作 字 ， 相 反 ， 出 于 历史 原因 和 某 种 主观 
”的 命名 习惯 ， 它 们 用 字 来 代表 一 些 固定 长 度 的 数据 类 型 。 比 如 说 ， 一 些 系 统 根 据 长 度 把 数据 
”划分 为 字 节 (byte，8 位 )、 字 (word，16 位 )、 双 字 (double words，32 位 ) 和 四 字 (quad 
”words 64 位 )， 而 实际 上 该 机 是 32 位 的 。 在 本 书 中 〈 在 Linux 中 一 般 也 是 这 样 )， 像 我 们 前 面 
”所 讨论 的 那样 ， 一 个 字 就 代表 处 理 器 的 字 长 。 


对 于 支持 的 每 一 种 体系 结构 ，Linux 都 要 将 <asm/types.h> 中 的 BITS_PER_LONG 定义 为 
C long 类 型 的 长 度 ， 也 就 是 系统 的 字 长 。 表 19-1 是 Linux 支持 的 体系 结构 和 它们 的 字 长 的 对 

一 般 而 言 ，Linux 对 于 一 种 体系 结构 都 会 分 别 实现 32 位 和 64 位 的 不 同 版 本 。 比 如 ， 在 2.6 
内 核 的 早期 版 本 中 ， 内 核 中 就 同时 有 i386 和 x86-64，mips 和 mips64， 以 及 ppc 和 ppc64。 但 
现在 ， 经 过 大 家 的 努力 ， 这 些 体 系 结构 均 放 在 arch/ 目录 下 ， 每 个 代码 库 中 既 支 持 32 位 又 支持 
64 位 。 


日 不 过 实际 上 可 寻 址 的 内 存 空间 也 可 能 会 比 字 长 小 一 些 。 比 如 ， 一 个 帮 位 的 体系 结构 虽然 可 能 会 提供 64 位 的 指 
针 ， 但 可 能 只 会 用 48 位 来 寻 址 。 此 外 ， 如 果 支 持 Intel 的 PAE， 那 么 实际 的 物理 内 存 也 有 比 字 长 还 大 的 可 能 。 
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表 19-1 Linux 支持 的 体系 结构 
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I 各 和 他 


C 语言 虽然 规定 了 变量 的 最 小 长 度 ， 但 是 没有 规定 变量 具体 的 标准 长 度 ， 它 们 可 以 根据 实现 
变化 9。C 语言 的 标准 数据 类 型 长 度 随 体系 结构 变化 这 一 特性 不 断 引起 和 争议。 好 的 一 面 是 标准 数 
据 类 型 可 以 充分 利用 不 同体 系 结构 变化 的 字 长 而 无 须 明确 定义 长 度 。C 语言 中 long 类 型 的 长 度 
就 被 确定 为 机 器 的 字 长 。 不 好 的 一 面 是 在 编程 时 不 能 对 标准 的 C 数据 类 型 进行 大 小 的 假定 ， 设 
有 什么 能 够 保障 int 一 定 和 long 的 长 度 是 相同 的 。 

情况 其 实 还 会 更 加 复杂 ， 因 为 用 户 空间 使 用 的 数据 类 型 和 内 核 空间 的 数据 类 型 不 一 定 要 相 
互 关联 。sparc64 体系 结构 就 提供 了 32 位 的 用 户 空间 ， 其 中 指针 、int 和 long 的 长 度 都 是 32 位 。 
而 在 内 核 空间 ， 它 的 int 长 度 是 32 位 ， 指 针 和 long 的 长 度 却 是 64。 没 有 什么 标准 来 规范 这 些 。 

牢记 下 述 惟 则 ; 

“ANSIC 标准 规定 ， 一 个 char 的 长 度 一 定 是 1 字 节 。 

“尽管 没有 规定 int 类 型 的 长 度 是 32 位 ， 但 在 Linux 当前 所 有 支持 的 体系 结构 中 ， 它 都 是 32 

位 的 。 


昌 ” 唯 一 的 例外 是 char， 它 的 长 讼 总 是 8 位 。 
四 事实 上 对 于 Linux 支持 的 猎 位 体系 结构 来 说 ，long 和 int 长 度 是 不 同 的 ，int 是 32 位 的 ， 而 long 是 全 位 的 . 
但 对 于 我 们 所 部 一 的 32 位 体系 结构 而 言 ， 两 种 数据 类 型 都 是 了 位 的 。 
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* short 类 型 也 类 似 ， 在 当前 所 有 支持 的 体系 结构 中 ， 虽 然 没 有 明文 规定 ， 但 是 它 都 是 16 位 的 。 
* 绝 不 应 该 假定 指针 和 long 的 长 度 ， 在 Linux 当前 支持 的 体系 结构 中 ， 它 们 可 以 在 32 位 和 
64 位 中 变化 。 

* 由 于 不 同 的 体系 结构 .long 的 长 度 不 同 ， 决 不 应 该 假设 sizeof int ) = sizeof long )。 

* 类似 地 ， 也 不 要 假设 指针 和 int 长 度 相等 。 

操作 系统 常用 一 个 简单 的 助 记 符 来 描述 此 系统 中 数据 类 型 的 大 小 。 比 如 ，64 位 的 Windows 
系统 简称 为 LLP64， 它 说 明 long 和 指针 的 长 度 都 是 64 位 。64 位 的 Linux 系统 可 简 记 为 LP64， 
即 long 和 指针 都 是 64 位 。32 位 的 Linux 系统 简称 为 ILP32， 即 int、long 和 指针 的 长 度 均 为 32 
位 。 这 些 助 记 符 可 以 一 目 了 然 地 显示 出 操作 系统 所 提供 的 字 长 大 小 ， 因 为 这 种 方法 涉及 一 种 权衡 
问题 。 

现在 依次 来 分 析 ILP64、LP64 和 LLP64 这 三 种 情况 。ILP64 这 种 操作 系统 ，int、long 和 指 
针 的 大 小 都 是 64 位 。 这 样 的 数据 长 度 使 得 编程 变 得 更 加 容易 ， 因 为 C 语言 中 主要 的 数据 类 型 
大 小 是 一 样 的 〈 整 型 和 指针 大 小 的 不 匹配 是 编程 中 常 出 现 的 错误 )。 不 过 这 样 也 会 带 来 缺点 ， 这 
种 整 型 比 我 们 平常 所 需 的 整 型 要 大 很 多 。 在 LP64 操作 系统 中 ， 程 序 员 可 以 使 用 不 同 大 小 的 整 
型 ， 但 必须 注意 整 型 的 大 小 比 指针 类 型 要 小 。 对 于 LLP64 系统 而 言 ， 程 序 员 不 仅 要 被 迫 接受 int 
和 long 的 大 小 相同 ， 还 要 担心 整 型 和 指针 之 间 的 大 小 不 匹配 。 大 多 数 程序 员 都 喜欢 LP64 型 ， 即 
Linux 所 采用 的 操作 系统 模型 。 


19.3.1 不 透明 类 型 


不 透明 数据 类 型 隐藏 了 它们 的 内 部 格式 或 结构 。 在 C 语言 中 ， 它 们 就 像 黑 盒 一 样 。 支 持 它 
们 的 语言 不 是 很 多 。 作 为 替代 ， 开 发 者 们 利用 typedef 声明 一 个 类 型 ， 把 它 叫做 不 透明 类 型 ， 和 希 
望 其 他 人 别 去 把 它 重新 转化 回 对 应 的 那个 标准 C 类 型 。 通 常 开发 者 们 在 定义 一 套 特 别 的 接口 时 
才 会 用 到 它们 。 比 如 说 用 来 保存 进程 标识 符 的 pid_t 类 型 。 读 类 型 的 实际 长 度 被 隐藏 起 来 了 一 一 
尽管 任何 人 都 可 以 偷偷 掠 开 它 的 面纱 ， 发 现 它 就 是 一 个 int。 如 果 所 有 代码 都 不 显 式 地 利用 它 的 
长 度 介 ， 那 么 改变 时 就 不 会 引起 什么 争议 ， 这 种 改变 确实 可 能 会 出 现 : 在 老 版 本 的 Unix 系统 中 ， 
pid t 的 定义 是 short 类 型 。 

另外 一 个 不 透明 数据 类 型 的 例子 是 atomic t。 在 第 10 章 中 介绍 过 ， 它 放置 的 是 一 个 可 以 进 
行 原子 操作 的 整 型 值 。 尽 管 这 种 类 型 就 是 一 个 int， 但 利用 不 透明 类 型 可 以 帮助 确保 这 些 数据 只 
在 特殊 的 有 关 原 子 操作 的 函数 中 才 会 被 使 用 。 不 透明 类 型 还 帮助 我 们 隐藏 了 atomic t 类 型 的 可 用 
长 度 ， 但 是 该 类 型 也 并 不 总 是 完整 的 32 位 ， 比 如 在 32 位 SPARC 体系 下 长 度 就 被 限制 。 

内 核 还 用 到 了 其 他 一 些 不 透明 类 型 ， 包 括 dev_t、gid t 和 id t 等。 

处 理 不 透明 类 型 时 的 原则 是 : 

“不 要 假设 该 类 型 的 长 度 。 这 些 类 型 在 某 些 系统 中 可 能 是 32 位 ， 而 在 其 他 系统 中 又 可 能 是 

64 位 。 并 且 ， 内 核 开 发 者 可 以 任意 修改 这 些 类 型 的 大 小 。 
* 不 要 将 该 类 型 转化 回 其 对 应 的 C 标准 类 型 使 用 。 


但 ” 显 式 利用 长 度 这 里 指 直 接 使 用 int 类 型 的 长 度 ， 比 如 说 在 编程 时 使 用 sizeoflint) 而 不 是 sizeofpid_b。 一 一 译 者 注 
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"成 为 一 个 大 小 不 可 知 论 者 。 编 程 时 要 保证 在 该 类 型 实际 存储 空间 和 格式 发 生变 化 时 代码 不 
” 受 影响 。 


19.3.2 指定 数据 类 型 


内 核 中 还 有 一 些 数据 虽然 无 须 用 不 透明 的 类 型 表示 ， 但 它们 定义 成 了 指定 的 数据 类 型 。 在 中 
断 控制 时 用 到 的 flag 参数 就 是 个 例子 ， 它 应 该 存放 在 unsigned long 类 型 中 。 

当 存 放 和 处 理 这 些 特别 的 数据 时 ， 一 定 要 搞 清 楚 它 们 对 应 的 类 型 后 再 使 用 。 把 它们 存放 在 其 
他 《如 unsigned int 等 ) 类 型 中 是 一 种 常见 错误 。 在 32 位 机 上 这 没什么 问题 ， 可 是 64 位 机 上 就 
会 捅 娄 子 了 。 


19.3.3 ”长度 明确 的 类 型 


作为 一 个 程序 员 ， 你 往往 需要 在 程序 中 使 用 长 度 明确 的 数据 。 像 操作 硬件 设备 、 进 行 网 络 
通信 和 和 操作 二 进 制 文件 时 ， 通 常 都 必须 满足 它们 明确 的 内 部 要 求 。 比 如 说 ， 一 块 声卡 可 能 用 的 是 
32 位 寄存 器 ， 一 个 网 络 包 有 一 个 16 位 字段 ， 一 个 可 执行 文件 有 8 位 的 cookie。 在 这 些 情况 下 ， 
数据 对 应 的 类 型 应 该 长 度 明 确 。 

内 核 在 <asm/typs.h> 中 定义 了 这 些 长 度 明 确 的 类 型 ， 而 该 文件 又 被 包含 在 文件 <linux/types. 
h> 中 。 表 19-2 有 完整 的 清单 。 


表 19-2 长 度 明 确 的 数据 类 型 


类 型 描 述 
sb 带 符号 字 节 
u8 无 符号 字 节 
316 带 符号 16 位 整数 
ulé 无 符号 16 位 整数 
s32 带 符 号 32 位 整数 
u32 无 符号 32 位 整数 
s64 带 符 号 全 位 整数 
u64 无 符号 64 位 整数 

其 中 带 符 号 的 变量 用 得 比较 少 。 


这 些 长 度 明 确 的 类 型 大 部 分 都 是 通过 typedef 对 标准 的 C 类 型 进行 映射 得 到 的 。 在 一 个 64 
位 机 上 ， 它 们 看 起 来 像 : 


typedef signed char sg8; 
typedef unsigned char ug; 
typedef signed Short 816; 
typedef unsigned short ulé6; 
typedef signed int s32; 
typedef unsigned int uwu32; 
typedef signed long se6d4; 
typedef unsigned long u64; 
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而 在 32 位 机 上 上， 它们 可 能 定义 成 : 


typedef signed char seg; 

typedef unsigned char ug; 
typedef signed short sl6; 
typedef unsigned short ulé; 
typedef signed int s32; 

typedef unsigned int u32; 
typedef signed long long 864; 
typedef unsigned long long uu64; 


上 述 的 这 些 类 型 只 能 在 内 核 内 使 用 ， 不 可 以 在 用 户 空间 出 现 ( 比 如 ， 在 头 文件 中 的 某 个 用 户 
可 见 结构 中 出 现 )。 这 个 限制 是 为 了 保护 命名 空间 。 不 过 内 核对 应 这 些 不 可 见 变 量 同时 也 定义 了 
对 应 的 用 户 可 见 的 变量 类 型 ， 这 些 类 型 与 上 面 类 型 所 不 同 的 是 增加 了 两 个 下 划 线 前 级 。 比 如 ， 无 
符号 32 位 整 型 对 应 的 用 户 空 间 可 见 类 型 就 是 _u32。 读 类 型 除了 名 字 有 区 别 外 ， 其 他 方面 与 u32 
相同 。 在 内 核 中 你 可 以 任意 使 用 这 两 个 名 字 ， 但 是 如 果 是 用 户 可 见 的 类 型 ， 那 必须 使 用 下 划 线 前 
组 的 版 本 名 ， 防 止 污染 用 户 空 间 的 命名 空间 。 


19.3.4 ”char 型 的 符号 问题 


C 标准 表示 char 类 型 可 以 带 符号 也 可 以 不 带 符号 ， 由 具体 的 编译 器 、 处 理 器 或 由 它们 两 者 
共同 决定 到 底 char 是 带 什 号 还 十 不 性 付 号 。 

大 部 分 体系 结构 上 , char 默认 是 带 符 号 的 ， 它 可 以 目 一 128 到 127 之 间 取 值 。 也 有 一 些 例外 ， 
比如 ARM 体系 结构 上 ，char 就 是 不 带 符号 的 ， 它 的 取 值 范围 是 0 ~ 255。 

举例 来 说 ， 在 默认 char 不 带 符号 的 情况 下 ， 下 面 的 代码 实际 会 把 255 而 不 是 把 一 1 赋予 i: 


char i = -1; 


而 另 一 种 机 器 上 ， 默 认 char 带 符号 ， 就 会 确切 地 把 一 1 赋予 1。 如果 程 序 员 本 意 是 把 一 1 保 
存在 i 中 ， 那 么 前 面 的 代码 就 该 修改 成 : 


gigned char 1 = -1; 


另外 ， 如 果 程 序 员 确 实 希 望 存储 255， 那 么 代码 应 该 如 下 : 


unsigned char = 255; 


如 果 在 自己 的 代码 中 使 用 了 char 类 型 ， 那 么 要 保证 在 带 符号 和 不 带 符号 的 情况 下 代码 都 没 
问题 。 如 果 能 明确 要 用 的 是 哪 一 个 ， 就 直接 声明 它 。 


19.4 ”数据 对 齐 


对 齐 是 跟 数据 块 在 内 存 中 的 位 置 相 关 的 话题 。 如 果 一 个 变量 的 内 存 地 址 正好 是 它 长 度 的 整数 
倍 ， 它 就 称 作 是 自然 对 齐 的 。 举 例 来 说 ， 对 于 一 个 32 位 类 型 的 数据 ， 如 果 它 在 内 存 中 的 地 址 刚 
好 可 以 被 4 整除 (也 就 最 低 两 位 为 0);， 那 它 就 是 自然 对 齐 的 。 也 就 是 说 ， 一 个 大 小 为 2? 字 节 的 
数据 类 型 ， 它 地 址 的 最 低 有 效 位 的 后 n 位 都 应 该 为 0。 

一 些 体系 结构 对 对 齐 的 要 求 非常 严格 。 通 常 像 RISC 的 系统 ， 载 入 未 对 齐 的 数据 会 导致 处 理 
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问 陷 人 《一 种 可 处 理 的 错误 )。 还 有 一 些 系统 可 以 访问 设 有 对 齐 的 数据 ， 只 不 过 性 能 会 下 降 。 编 
写 可 移植 性 高 的 代码 要 避免 对 齐 问 题 ， 保 证 所 有 的 类 型 都 能 够 自然 对 齐 。 


19.4.1 避免 对 齐 引发 的 问题 


编译 器 通常 会 通过 让 所 有 的 数据 自然 对 齐 来 避免 引发 对 齐 问 题 。 实 际 上 ， 内 核 开发 者 在 对 齐 
上 不 用 花费 太 大 心思 一 一 只 有 搞 gce 的 那些 老兄 才 应 该 为 此 犯愁 呢 。 可 是 ， 当 程序 员 使 用 指针 
太 多 ， 对 数据 的 访问 方式 超出 编译 器 的 预期 时 ， 就 会 引发 问题 了 。 

一 个 数据 类 型 长 度 较 小 ， 它 本 来 是 对 齐 的 ， 如 果 你 用 一 个 指针 进行 类 型 转换 ， 并 且 转 换 后 的 
类 型 长 度 较 天， 那么 通过 改 指针 进行 数据 访问 时 就 会 引发 对 齐 辣 题 《无 论 如 何 ， 菜 些 体系 结构 会 
存在 这 种 问题 )。 也 就 是 说 ， 下 面 的 代码 是 错误 的 : 

char wolf[]="Like a Wolf";y 


char *p = &wolf [1]; 
unsigned long 1 = *{(unsigned long *})p; 


这 个 例子 将 一 个 指 同 char 型 的 指针 当做 指 癌 unsigned long 型 的 指针 来 用 ， 这 会 引起 问题 ， 
因为 此 时 会 试图 从 一 个 并 不 能 被 4 或 8 整除 的 内 存 地 址 上 载 人 32 位 或 64 位 的 unsigned long 型 
数据 。 

这 种 复杂 的 访问 可 能 看 起 来 有 些 模糊 ， 不 过 通 营 就 是 如 此 。 无 论 如 何 ， 这 种 错误 出 现 了 ， 所 
以 应 该 小 心 。 实 际 编 程 时 错误 可 能 不 会 像 一 些 例子 中 那么 明显 或 复杂 。 


19.4.2 非 标准 类 型 的 对 齐 


前 面 提 到 了 ， 对 于 标准 数据 类 型 来 说 ， 它 的 地 址 只 要 是 其 长 度 的 整数 倍 就 对 齐 了。 而 非 标 准 
的 (复合 的 ) C 数据 类 型 按照 下 列 原则 对 齐 : 

*" 对 于 数组 ， 只 要 按照 基本 数据 类 型 进行 对 齐 就 可 以 了 ， 随 后 的 所 有 元 泰 目 然 能 够 对 齐 。 

* 对 于 联合 体 ， 只 要 它 包含 的 长 度 最 大 的 数据 类 型 能 够 对 齐 就 可 以 了 。 

* 对 于 结构 体 ， 只 要 结构 体 中 每 个 元 素 能 够 正确 地 对 齐 就 可 以 了 。 

结构 体 还 要 引信 填补 机 制 ， 这 会 引出 下 一 个 问题 。 


19.4.3 ”结构 体 填 补 


为 了 保证 结构 体 中 每 一 个 成 员 都 能 够 自然 对 齐 ， 结 构 体 要 被 填补 。 这 点 确保 了 当 处 理 器 访问 
结构 中 一 个 给 定 元 素 时 ， 元 素 本 身 是 对 齐 的 。 举 个 例子 ， 下 面 是 一 个 在 32 位 机 上 的 结构 体 : 


struct animal struct | 





char dog; A/* 工 字 节 */ 
unsigned long cat; /生字 节 */ 
unsigned short pig; Am 2 字 节 */ 
char fox; jw 1 字 节 */ 


}: 
由 于 该 结构 不 能 准确 地 满足 各 个 成 员 自然 对 齐 ， 所 以 它 在 内 存 中 可 不 是 按照 原样 存放 的 。 编 
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译 器 会 在 内 存 中 创建 一 个 类 似 下 面 给 出 的 结构 体 : 


struct animal struct | 


char dog; /* 1 字 P*/ 
ug pad0[3]; Am 3 字 节 */ 
unsigned long cat; /宇和 二 / 
unsiqgned short pig; A* 卫 字 节 */ 
char fox:; As 工 字 节 二 
u8 “padl: /A* 1 字 节 */ 


}; 


填补 的 变量 都 是 为 了 能 够 让 数据 自然 对 齐 而 加 入 的 。 第 一 个 填充 物 占用 了 3 个 字 节 的 空间 ， 
保证 cat 可 以 按照 4 字 市 对 齐 。 这 也 自动 使 其 他 小 的 对 象 都 对 齐 了 ， 因 为 它们 长 度 都 比 cat 要 小 。 
第 二 个 (也 是 最 后 的 ) 填充 是 为 了 填补 struct 本 身 的 大 小 。 额 外 的 这 个 填补 使 结构 体 的 长 度 能 够 
被 4 整除， 这样 ， 在 由 该 结构 体 构 成 的 数组 中 ， 每 个 数组 项 也 就 会 自然 对 齐 了 。 

注意 ， 在 大 部 分 32 位 系统 上 ， 对 于 任何 一 个 这 样 的 结构 体 ，sizeoflanimal_struct) 都 会 返回 
12。C 编译 器 自动 进行 填补 以 保证 目 然 对 齐 。 

通常 你 可 以 通过 重新 排列 结构 体 中 的 对 象 来 避免 填充 。 这 样 既 可 以 得 到 一 个 较 小 的 结构 体 ， 
又 能 保证 无 须 填补 它 也 是 自然 对 齐 的 。 


struct animal struct | 


unsigned long cat; A/* 业 字 节 */ 
unsigned short pig; jw 2 字 节 */ 
char dog; jz 1 字 节 */ 
char fox; fs 1 字 节 */ 


}; 

现在 这 个 结构 体 只 有 8 字 节 大 小 了 。 不 过 ， 不 是 任何 时 候 都 可 以 这 样 对 结构 体 进行 调整 
的 。 举 个 例子 ， 如 果 读 结构 体 是 某 个 标准 的 一 部 分 ， 或 者 它 是 现 有 代码 的 一 部 分 ， 那 么 它 的 成 
员 次 序 就 已 经 被 定 死 了 ， 虽 然 内 核 (缺少 一 个 正式 的 ABI) 相 比 用 户 空间 来 说 ， 这 种 需求 要 
少 得 多 。 还 有 些 时 候 ， 因 为 一 些 原 因 必 须 使 用 某 种 固定 的 次 序 一 一 比如 说 ， 为 了 提高 高 速 组 
存 的 命中 率 进行 优化 时 设 定 的 变量 次 序 。 注 意 ，ANSI C 明确 规定 不 允许 编译 器 改变 结构 体内 
成 员 对 象 的 次 序 S 一 一 它 总 是 由 程序 员 来 决定 的 。 虽 然 编 译 器 可 以 帮助 你 做 填充 ， 但 是 ， 如 果 使 
用 一 Wpadded flag 标志 ， 那 么 将 使 gcc 在 发 现 结构 体 被 填充 时 产生 警告 。 

内 核 开发 者 需要 注意 结构 体 填补 问题 ， 特 别 是 在 整体 使 用 时 一 一 这 是 指 当 需 要 通过 网 络 发 
送 它 们 或 需要 将 它们 写 人 文件 的 时 候 ， 因 为 不 同体 系 结构 之 间 所 需要 的 填补 也 不 尽 相 同 。 这 也 
是 为 什么 C 语言 没有 提供 一 个 内 建 的 结构 体 比 较 操 作 符 的 原因 之 一 。 结 构 体 内 的 填充 字 节 中 可 
能 会 包含 垃圾 信息 ， 所 以 在 结构 体 之 间 进 行 一 字 节 一 字 节 的 比较 就 不 大 可 能 实现 了 。C 语言 的 设 
计 者 (正确 的 ) 感觉 到 最 好 还 是 由 程序 员 自 己 为 不 同 的 情况 编写 比较 函数 ， 这 样 才能 利用 到 结构 
体 次 序 信 息 。 


但” 如 果 让 编译 器 随心 所 欲 地 改变 结构 体 中 各 个 对 象 的 位 置 的 话 ， 现 存 的 程序 大 部 分 都 会 崩 渍 。 在 CC 语言 中 ， 国 
数 往往 通过 在 结构 体 地 址 上 加 上 偏 移 量 来 计算 变量 的 位 置 。 
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19.5” 字 节 顺 序 


字 节 顺序 是 指 在 一 个 字 中 各 个 字 节 的 顺序 。 处 理 器 在 对 字 取 值 时 既 可 能 将 最 低 有 效 位 所 在 的 
字 节 当做 第 一 个 字 节 〈 最 左边 的 字 节 )， 也 可 能 将 其 当做 最 后 一 个 字 节 《最 右边 的 字 节 )。 如 果 最 
高 有 效 位 所 在 的 字 刷 放 在 低 字 节 位 置 上 ， 其 他 字 节 依次 放 在 高 字 节 位 置 上 ， 那 么 该 字 节 上 顺序 称 作 
高 位 优先 (big-endian)。 如 果 最 低 有 效 位 所 在 的 字 节 放 在 高 字 节 位 置 上 ， 其 他 字 节 依次 放 在 低 字 
市 位 置 上 ， 那 么 就 称 作 低 位 优先 (little-endian)，。 

编写 内 核 代 码 时 不 应 该 假设 字 节 顺序 是 给 定 的 哪 一 种 〈 当 然 ， 如 果 你 编写 的 是 与 体系 结构 相 
关 的 那 部 分 代码 就 男 当 别论 了 )。Linux 内 核 支持 的 机 器 中 使 用 哪 一 种 字 节 顺序 的 都 有 【甚至 包 
播 一 些 可 以 在 启动 的 时 候选 择 字 节 顺 序 的 机 器 )， 适 用 性 强 的 代码 应 该 两 种 字 节 顺序 都 支持 。 

19-1 是 高 位 优先 字 节 顺序 的 一 个 实例 ， 图 19-2 是 低位 优先 字 节 顺序 的 一 个 实例 。 





1 1 
更 高 位 更 低位 更 低位 更 高 位 
图 19-1 高 位 优先 字 市 顺序 图 19-2 ”低位 优先 字 节 顺序 


x86 体系 结构 ， 不 论 32 位 机 还 是 64 位 机 ， 使 用 的 都 是 低位 优先 字 节 顺序 。 而 其 他 系统 大 多 
使 用 高 位 优先 字 节 顺序 。 

让 我 们 看 看 在 实际 编程 时 这 些 概念 有 什么 意义 。 让 我 们 考察 一 下 存放 在 一 个 4 字 节 的 整 型 中 
的 二 进 制 数 ， 它 的 十 进 制 对 应 值 是 1027 : 

00000000 00000000 00000100 00000011 

在 内 存 中 用 高 位 优先 和 低位 优先 两 种 不 同 字 节 顺序 存放 时 的 比较 如 表 19-3 所 示 。 


表 19-3 字 节 顺序 比较 
rn 全 位 优 天 
0 oo000011 
bo000100 
2 00000000 
; 00000000 
注意 ”使 用 高 位 优先 的 体系 结构 把 最 高 字 节 位 存放 在 最 小 的 内 看 地址 上 的 。 这 和 低位 优先 形 


成 了 鲜明 的 对 照 。 
最 后 一 个 例子 ， 我 们 提供 了 如 何 判断 给 定 的 机 器 使 用 是 高 位 优先 还 是 低位 优先 字 节 顺序 的 代码 : 


int x = 1; 


if (* {char *) &x ==1) 
jx 低位 优先 */ 
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傣 外 号 全 


/* 高 位 优先 */ 
这 段 代码 在 用 户 空 间 和 内 核 空间 都 能 用 。 


-高 位 优先 和 低位 优先 的 历史 
高 位 优先 和 低位 优先 源 于 乔纳森 * 斯 威夫 特写 于 1726 年 的 讽刺 小 说 《 格 列 弗 游记 》。 在 
小 说 中 ， 虚 构 的 小 人 国 里 最 重要 的 政治 问题 就 是 应 该 把 鸡蛋 从 大 头 斋 开 还 是 从 小 头 斋 开 。 那 
些 支 持 从 大 头 项 开 的 就 是 高 位 优先 ; 而 那些 支持 从 小 头 敲 开 的 ， 就 是 低位 优先 。 
高 位 优先 与 低位 优先 的 熟 优 熟 差 就 好 像 小 人 国 中 的 政治 争论 一 样 ， 与 其 说 是 技术 问题 ， 
倒 不 如 说 是 政治 问题 啦 。 


对 于 Linux 支持 的 每 一 种 体系 结构 ， 相 应 的 内 核 都 会 根据 机 器 使 用 的 字 节 顺序 在 它 的 <asm/ 
byteorderh> 中 定义 _ BIG ENDIAN 或 _LITTLE_ENDIAN 中 的 一 个 。 

这 个 头 文 件 还 从 include/linux/byteorder/ 中 包含 了 一 组 宏 命 令 用 于 完成 字 节 顺序 之 间 的 相互 
转换 。 最 常用 的 宏 命 令 有 : 

u23 ”cpu to be32(u32); /* 把 cpu 字 节 上 顺序 转换 为 高 位 优先 字 节 顺序 */ 

u32 cpu to le32(u32}; /* 把 cpu 字 节 顺 序 转 换 为 低位 优先 字 节 顺序 */ 

ua32 _ be32_to_cpu(u32); /* 把 高 位 优先 字 节 顺序 转换 为 cpu 字 节 顺序 */ 

u32 le32 to cpus(u32); /* 把 低位 优先 字 节 顺序 转换 为 cpu 字 节 顺序 */ 

这 些 转 换 能 够 把 一 种 字 韦 顺序 变 为 男 一 种 字 市 顺序 。 如 果 两 种 字 节 顺序 本 来 就 相同 (比如 ， 
希望 从 本 地 字 节 顺序 转化 为 高 位 优先 字 市 顺序 ， 而 处 理 器 本 身 使 用 的 就 是 高 位 优先 字 顾 顺序 )， 
那么 宏 就 什么 都 不 做 。 否 则 ， 它 们 就 进行 转换 。 


19.6 时间 


时间 测 量 是 另 一 个 内 核 概念 ， 它 随 着 体系 结构 其 至 内 核 版 本 的 不 同 而 不 同 。 绝 对 不 要 假定 时 
钟 中 断 发 生 的 频率 ， 也 就 是 每 秒 产 生 的 jiffies 数目 。 相 反 ， 应 该 使 用 HZ 来 正确 计量 时 间 。 这 一 
点 至 关 重 要 ， 因 为 不 但 不 同 的 体系 结构 之 间 定 时 中 断 的 频率 不 同 ， 即 使 是 在 同一 种 体系 机 构 上 ， 
两 个 不 同 版 本 的 内 核 之 间 这 种 频率 也 不 尽 相 同 。 

举 个 例子 ， 在 x86 系统 上 ，HZ 设 定 为 100。 也 就 是 说 ， 定 时 中 断 每 秒 发 生 100 次 ， 也 就 是 
每 10ms 一 次 。 可 是 在 2.6 版 以 前 ，x86 上 HZ 定 为 1000。 而 其 他 体系 机 构 上 的 数值 各 不 相同 : 
alpha 的 HZ 是 1024 而 ARM 的 HZ 是 100。 

绝对 不 要 用 jifhes 直接 去 和 1000 这 样 的 数值 比较 ， 认 为 这 样 做 大 体 上 不 会 出 问题 是 要 不 得 
的 。 计 量 时 间 的 正确 方法 是 乘 以 或 除 以 HZ。 比 如， 

HZ jx 工种 */ 

{2*HZ) /:* 2 种 */ 

(HZ/2) A/* 半 种 */ 


{HZE/100) /* lOms */ 
(2*HZE/100) 让 20ms 机 站 


HZ 定义 在 文件 <asm/param.h> 中 ， 在 前 面 的 第 10 章 中 曾经 讨论 过 。 
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19.7 页 长 度 


当 处 理 用 页 管理 的 内 存 时 ， 绝 对 不 要 假设 页 的 长 度 。 在 x86-32 下 编程 的 程序 员 往 往 错误 地 
认为 一 页 的 大 小 就 是 4KB。 尽 管 x86-32 机 器 上 使 用 的 页 确实 是 4KB， 但 是 其 他 不 同 的 体系 结构 
使 用 的 页 长 度 可 能 不 同 。 实 际 上 有 些 体系 结构 还 同时 支持 多 种 不 同 长 度 的 页 。 表 19-4 列举 了 各 
种 体系 结构 使 用 的 页 的 长 度 。 

当 处 理 用 页 组 织 管理 的 内 存 时 ， 通 过 PAGE_SIZE 以 字 节 数 来 表示 页 长 度 。 而 PAGE_ 
SHIFT 这 个 值 定义 了 从 最 右 端 屏蔽 多 少 位 能 够 得 到 该 地 址 对 应 的 页 的 页 号 。 举 例 来 说 ， 在 页 
长 为 4KB 的 x86-32 机上，PAGE_SIZE 为 4096 而 PAGE SHIFT 为 12。 它 们 都 定义 于 <ams/ 
page.h> 中 。 


表 19-4 不 同体 系 结构 的 页 长 度 
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19.8 ”处理 器 排序 


回忆 第 9 章 和 第 10 章 ， 其 中 讨论 过 体系 结构 对 指令 序列 的 排序 问题 。 有 些 处 理 器 严格 限制 
指令 排序 ， 代 码 指定 的 所 有 装载 或 存储 指令 都 不 能 被 重新 排序 ; 而 另外 一 些 体系 结构 对 排序 要 求 
则 很 弱 ， 可 以 自行 排序 指令 序列 。 
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在 代码 中 ， 如 果 在 对 排序 要 求 最 弱 的 体系 结构 上 ， 要 保证 指令 执行 师 序 。 那 么 就 必须 使 用 诸 
如 rmb0 和 wmb( 等 恰当 的 内 存 屏 障 来 确保 处 理 器 以 正确 顺序 提交 装载 和 存储 指令 。 详 情 请 参见 
第 10 章 。 


19.9 ” SMP、 内 核 抢 占 、 高 端 内 存 


在 讨论 可 移植 性 的 地 方 加 入 有 关 并 发 处 理 、 内 核 抢 占 和 高 端 内 存 的 部 分 看 起 来 似乎 不 太 恰 
当 。 毕 竟 ， 这 些 都 不 是 会 影响 到 操作 系统 的 硬件 之 间 有 所 差异 的 那些 特性 ; 恰恰 相反 ， 它 们 都 是 
Linux 内 核 本 身 的 一 些 功 能 ， 硬 件 体 系 结构 根本 感知 不 到 它们 的 存在 。 但 是 ， 它 们 代表 的 其 实 都 
是 可 配置 的 重要 选项 ， 而 你 的 代码 应 该 充分 考 虚 到 对 它们 的 支持 。 就 是 说 ， 只 有 在 编程 时 就 针对 
SMP/ 内 核 抢占 /高 端 内 存 进行 了 考虑 ， 代 码 才 会 无 论 内 核 怎样 配置 ， 都 能 身 处 安全 之 中 。 再 在 
前 面 那些 保证 可 移植 性 的 规范 下 加 上 这 几 条 : 

* 假设 你 的 代码 会 在 SMP 系统 上 运行 ， 要 正确 地 选择 和 使 用 锁 。 

* 假设 你 的 代码 会 在 支持 内 核 抢占 的 情况 下 运行 ， 要 正确 地 选择 和 使 用 锁 和 内 核 抢占 语句 。 

* 假设 你 的 代码 会 运行 在 使 用 高 端 内 存 〈 非 永久 映射 内 存 ) 的 系统 上 ， 必 要 时 使 用 kmap()。 


19.10 ”小 结 


要 想 写 出 可 移植 性 好 、 人 光洁、 合适 的 内 核 代码 ， 要 注意 以 下 两 点 : 

* 编码 尽量 选取 最 大 公 因 子 : 假定 任何 事情 都 可 能 发 生 ， 任 何 济 在 的 约束 也 都 存在 。 

* 编码 尽量 选取 最 小 公约 数 : 不 要 假定 给 定 的 内 核 特 性 是 可 用 的 ， 仅 仅 需 要 最 小 的 体系 结构 

功能 。 

编写 可 移植 的 代码 需要 考虑 许多 问题 : 字 长 、 数 据 类 型 、 填 充 、 对 齐 、 字 节 次 序 、 符 号 、 字 
顺序 、 页 大 小 以 及 处 理 器 的 加 载 / 存储 排序 等 。 对 于 绝 大 多 数 内 核 开 发 来 说 ， 可 能 主要 考虑 的 
问题 束 定 你 证 正确 使 用 数据 类 型 ， 虽 然 如 此 ， 说 不 定 有 朝 一 日 ， 还 是 会 有 些 与 古老 的 体系 结构 有 
关 的 问题 突然 跳出 来 困扰 你 。 所 以 说 理解 移植 性 的 重要 性 ， 并 且 在 开发 内 核 过 程 中 时 刻 注意 编写 
简洁 、 可 移植 的 代码 是 非常 重要 的 。 
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Linux 的 节 大 优势 惑 是 它 有 一 个 紧密 团结 了 众多 使 用 者 和 开发 者 的 社区 。 社 区 能 帮 你 检查 代 
码 ， 社 区 中 的 专家 给 你 提出 忠告 ， 社 区 中 的 用 户 能 帮 你 进行 测试 ， 用 户 还 能 向 你 反馈 存在 的 问 
题 。 更 重要 的 是 ， 什 么 样 的 代码 可 以 加 入 Linus 的 官方 内 核 树 也 是 由 社区 做 出 决定 的 。 因 此 了 解 
系统 到 底 是 怎么 运作 的 就 显得 尤为 重要 了 。 


20.1 社区 


如 果 一 定 要 让 Linux 内 核 社 区 在 现实 世界 中 找到 它 的 位 置 ， 那 它 也 许 会 叫做 内 核 邮件 列表 
(Linux Kernel Mailing List) 之 家 。 内 核 邮 件 列 表 (或 者 简写 成 kml) 是 对 内 核 进行 发 布 、 讨 论 、 
争辩 和 打 口 水 会 的 主 战场 。 在 做 任何 实际 的 动作 之 前 ， 新 特性 会 在 此 处 被 讨论 ， 新 代码 的 大 部 分 
也 会 在 此 处 张贴 。 这 个 列表 每 天 发 布 的 消息 超过 300 条 ， 所 以 决 不 适合 心血 来 讲 的 玩 主 。 任 何 
想 踏 踏实 实 研究 、 认 认真 真 开发 内 核 的 人 都 应 该 订阅 它 〈 至 少 要 订阅 它 的 摘要 或 者 是 它 的 归档 资 
料 )。 单 单 看 看 这 些 奇才 们 使 出 的 一 招 一 式 ， 也 能 让 你 受益 匪 浅 了 。 

你 可 以 通过 站 majordomo@vger.kernel.org 发 送 下 面 的 纯 文本 消息 订阅 这 个 邮件 列表 : 


subscribe linux-kernel <Your®@email .address> 


关于 这 方面 更 为 详细 的 信息 可 以 在 http://vger.kernel.org/ 中 找到 ， 此 外 在 http://www.tux.org/ 
lkmly， 还 有 一 个 专门 的 FAQ。 

网 上 还 有 无 数 与 内 核 相关 或 与 普通 的 Linux 使 用 相关 的 资源 。http://kermnelnewbies.org/ 是 一 
方 适合 内 核 开发 初级 黑客 的 乐土 一 一 该 网 站 几乎 能 够 满足 所 有 磨 刀 霍霍 向 内 核 的 新 手 的 需求 。 还 
有 两 个 网 站 也 是 不 错 的 资源 ， 包 括 http://www.lwn.net/，Linux 新 闻 周 刊 ， 它 有 一 个 专区 报道 有 关 
内 核 的 重要 新 闻 ; http:Wkemelnewbies.org/， 内 核 直通 车 ， 提 供 关于 内 核 开 发 一 针 见 血 的 评论 。 


20.2 Linux 编码 风格 


像 所 有 其 他 大 型 软件 项 目 一 样 ，Linux 制定 了 一 套 编码 风格 ， 对 代码 的 格式 、 风 格 和 布局 做 
出 了 规定 。 这 么 做 不 是 因为 Linux 内 核 的 风格 有 多 么 出 众 ( 可 能 确实 还 不 错 ) 或 是 你 自己 原来 的 
风格 有 多 么 拙劣 ， 而 是 因为 保持 编码 风格 的 一 致 有 助 于 提高 编程 效率 。 然 而 对 规定 编码 风格 还 是 
存在 一 些 争 议 ， 有 人 认为 这 其 实 无 关 紧 要 ， 因 为 无 论 如 何 ， 最 终 编译 出 来 的 上 且 标 码 不 会 受 影响 。 
在 像 内 核 这 样 的 大 型 软件 项 目 中 ， 涉 及 许 许 多 多 的 开发 者 ， 编 码 的 一 致 性 变 得 至 关 重 要 。 一 致意 
味 着 相似 和 热 悉 ， 也 就 意味 着 容易 读 懂 ， 不 含 歧义 ， 并 且 以 后 的 代码 仍旧 会 保持 这 种 风格 。 这 可 
Li 上 更 多 的 开发 者 读 懂 你 的 代码 ， 也 能 让 你 读 懂 更 多 其 他 人 编写 的 代码 。 在 开源 项 目 中 ， 有 眼球 自 
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然 是 越 多 越 好 。 

跟 选 择 一 个 唯一 确定 的 风格 相 比 ， 到 底 选 择 什么 样 的 风格 反而 显得 不 是 那么 重要 了 。 好 在 
Linus 早 就 展示 出 了 该 用 什么 风格 ， 而 且 绝 大 部 分 代码 都 照 这 么 做 了 。 编 码 风 格 的 主要 规范 伴随 
着 Linus 一 贯 的 幽默 ， 都 记录 在 内 核 源 代码 树 的 Documentation/CodingStyle 中 了 。 


20.2.1 缩 进 


缩 进 风格 是 用 制 表 位 (Tab) 每 次 缩 进 8 个 字符 长 度 。 这 不 是 说 用 8 个 空格 缩 进 就 行 了 。 这 
里 的 规定 很 明确 ， 每 次 缩 进 通过 制 表 位 进行 ， 每 个 制 表 位 8 个 字符 长 度 。 例 如 : 


static void get new ship (const char *name) 


{ 
if {!name) 
name = DEFAULT SHIP NANME; 
get new ship with name (name); 


} 


不 知 为 什么 ， 虽 然 违 反 它 会 对 可 读 性 带 来 非常 大 的 冲击 ， 但 这 个 规定 还 是 最 容易 被 人 们 违 
反 。 八 个 字符 长 度 的 缩 进 能 让 不 同 的 代码 块 看 起 来 一 目 了 然 ， 特 别 是 在 连续 几 个 小 时 的 开发 之 
后 ， 效 果 更 加 明显 。 当 然 ， 随 着 缩 进 层 数 的 增加 ， 八 字符 制 表 位 的 左 侧 可 用 空间 就 所 剩 不 多 了 。 
这 是 因为 每 行 最 多 有 80 个 字符 (参见 20.2.2 节 )。Linus 极其 反对 这 样 做 ， 他 认为 代码 不 应 当 复 
杂 、 费 解 到 需要 两 级 或 者 = 级 缩 进 。 如 果真 的 需要 多 层 缩 进 ， 他 建议 ， 应 当 重 构 你 的 代码 ， 把 复 
杂 的 层次 关系 《为 此 形成 多 层 缩 进 ) 分 解 为 独立 的 功能 。 


20.2.2 switch 语句 


Switch 语句 下 属 的 case 标记 应 该 编 进 到 和 switch 声明 对 齐 ， 这 样 将 有 助 于 减少 8 个 字符 的 
tab 键 带 来 的 排版 缩 进 ， 比 如 


switch (animal) 1 

Case ANIMAL CAT: 
handle catsl(}; 
break,; 

case ANIMAL WOLF: 
handle wolves|); 
/* fall through */ 

case ANIMAL DOG: 
handle dogs1|); 
break; 

default: 
printk (KERN WARNING "Unknown animal %di\n", animal), 


} 


当 执 行 逻辑 需要 有 意 地 从 一 个 case 声明 尾部 进入 另外 一 个 case 声明 时 ， 对 其 进行 评注 无 疑 
是 一 个 普遍 的 《〈《 民 好 的 ) 实践 经 验 。 如 示例 中 所 见 。 
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20.2.3 ”空格 


这 一 节 讨 论 给 符号 和 关键 字 加 空格 ， 而 不 涉及 在 缩 进 中 加 空格 (这 将 在 后 面 两 节 中 讨论 )。 
一 般 来 说 ，Linux 的 编码 风格 规定 ， 空 格 放 在 关键 字 周 围 ， 函 数 名 和 图 括号 之 间 无 空格 。 例 如 : 


if (foo) 

while (foo) 

for {i = 0; i < NR CPUS; i++) 
switch (foo) 


相反 ， 国 数 、 宏 以 及 与 国 数 相像 的 关键 字 〈 例 如 sizeof、Typeof 以 及 alignof) 在 关键 字 和 图 
括号 之 间 疫 有 空格 。 


Wake up process (task); 

size t nlongs = BITS TO LONG (nbits).; 
int len = Sizeof {struct task struct),; 
typeof (*p) 

_alignof {struct sockaddr *) 
attribute ((packed))} 


在 括号 内 ， 如 前 所 示 ， 参 数 前 后 也 不 加 空格 。 例 如 ， 下 面 这 是 禁止 的 : 
int prio = task prio(l task ); /* BAD STYLEL */ 

对 于 大 多 数 二 元 或 者 三 元 操作 符 ， 在 操作 符 的 两 边 加 上 空格 。 例 如 : 
int Bum = 总 + b; 
int product = a * b; 


1nt mod = & Db: 
int ret = {bar)} ? bar : 0; 


3 


return (ret ? 0 : size); 
int nr = nr ? : 1; /* allowed shortcut, same as "nr ? nr : 1" */ 
if (x < Y) 


if (tek->flags & PF SUPERPRIV) 
mask = POLLIN | POLLRDNORM.; 


相反 ， 对 于 大 多 数 一 元 操作 符 ， 在 操作 符 和 操作 数 之 间 不 加 空格 : 


if (!foo) 

int len = foo.len; 

struct work struct *work = &dwork->work; 
foot++; 

-bar; 

unsigned long inverted = -~mask; 


在 提 领 运算 符 的 周围 加 上 合适 的 空格 尤为 重要 。 正 确 的 风格 是 ; 
char *strcpy (char *dest, const char *src) 


在 提 领 运算 符 的 一 边 加 上 空格 是 不 民 的 风格 : 


char * strcopy (char * dest, const char * src) /* BAD STYLE */ 


把 提 领 运算 符 放 在 紧 挨 类 型 的 地 方 也 是 借用 C++ 风格 的 一 种 不 良 作风 : 
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char* strcepy (char* dest, const char* src) /* BAD STYLE */ 
20.2.4 ” 花 括号 


化 揪 号 的 使 用 不 存在 技术 上 的 差异 ， 完 全 是 个 人 喜好 问题 ， 但 我 们 还 契 必 须 宣传 一 致 的 风 
格 。 内 核 选 定 的 风格 是 左 括号 紧 跟 在 语句 的 最 后 ， 与 语句 在 相同 的 一 行 。 而 右 括号 要 新 起 一 行 ， 
作为 读 行 的 第 一 个 字符 。 如 下 例 : 


if (strnemp (buf, "MO ", 3) == 0) { 
neg = 1; 
cmp += 3; 

} 


注意 ， 如 果 接 下 来 的 标识 符 是 相同 语句 块 的 一 部 分 ， 那 么 右 花 括号 就 不 单独 占 一 行 ， 而 是 与 
那个 标识 符 在 同一 行 ， 例 如 : 


if (ret) { 
SYSCL1 sched rt period = old period; 
Byactl sched rt runtime = old runtime; 
} else | 
def rt bandwidth.rt runtime = global rt runtime|(}, 
def rt bandwidth,.rt period = ns to ktimelglobal rt period{}):; 


percpu counter addl(l&ca->cpustat [idx], val}; 
ca = Ca->parent; 
} while {ca); 


函数 不 采用 这 样 的 书写 方式 ， 因 为 函数 不 会 在 内 部 人 嵌 套 定义 : 


unsigned long func (void) 
{ 
| 
} 
最 后 ， 不 需要 一 定 使 用 括号 的 语句 可 以 忽略 它 : 


if (ent > 63) 
cnt = 63; 


所 有 这 些 方法 原理 都 源 自 K&R 中。 大 多 数 编码 风格 都 遵循 K&R 风格 ， 这 是 在 那 本 著名 的 
书 中 所 使 用 的 C 编码 风格 。 


昌 ”《C 语言 程序 设计 (第 2 版 )》 由 Brian Kernighan 和 Dennis Ritchie 著 ， 这 两 位 作者 简称 KK 让 R， 读 书 是 C 语言 
的 圣经 ， 由 C 语言 的 发 明 者 和 他 的 同事 合 著 。 
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20.2.5 每 行 代码 的 长 度 


源 代码 中 要 尽 可 能 地 保证 每 行 代 码 长 度 不 超过 80 个 字符 ， 因 为 这 样 做 可 使 代码 最 适合 在 标 
准 的 80X24 的 终端 上 显示 。 事 实 上 ， 并 不 存在 一 个 广泛 接受 的 标准 一 一 如 果 代码 行 超过 80 应 该 
折 到 下 一 行 。 有 些 开发 者 也 主根 本 不 理会 代码 跨行 问题 ， 而 是 让 编辑 器 以 可 读 的 方式 处 理 代码 的 
显示 ; 而 有 些 开发 者 会 手动 插入 断 行 符 来 分 制 代 码 行 ， 他 们 也 许 会 在 新 行头 插入 两 个 tab 键 以 便 
和 原先 行 错开 。 

类 似 的 ， 有 些 开 发 者 会 在 圆 括号 内 来 分 行 ， 对 齐 排列 函数 参数 ， 比 如 : 


static void get new parrot (const char *name, 
unsiagqned long disposition, 
unsigned long feather quality) 


而 另 一 些 开发 者 虽然 也 会 将 参数 分 行 输入 ， 但 却 不 会 把 它们 对 齐 排列 ， 而 是 在 开头 简单 的 加 
人 两 个 标准 tab。 比 如 : 


int find pirate flag by CoLor (Const char *color, 
const char *name, int len) 


因为 分 行 没 有 确定 的 规则 ， 所 以 开发 者 在 这 点 上 可 采取 目 由 行动 。 
大 多 数 内 核 贡献 者 〈 包 括 我 在 内 ) 更 愿意 采用 前 一 个 例子 中 的 方式 : 把 大 于 80 个 字符 的 行 
进行 拆 分 ， 尽 量 让 新 产生 的 行 与 前 一 行 对 齐 。 


20.2.6 ”命名 规范 


名 称 中 不 允许 使 用 骆驼 拼写 法 (CamelCase)、Studly Caps 或 者 其 他 混合 的 大 小 写字 符 。 局 
部 变量 如 果 能 够 清楚 地 表明 它 的 用 途 ， 那 么 选取 idx 甚至 是 i 这 样 的 名 称 都 是 可 行 的 。 而 像 
theLoopIndex 这 样 元 长 繁复 的 名 字 不 在 接受 之 列 。 匈 牙 利 命 名 法 (在 变量 名 称 中 加 入 变量 的 类 别 ) 
是 不 必要 的 ， 绝 对 不 允许 使 用 一 一 要 知道 这 里 是 C， 不 是 Java ; 用 的 是 Unix， 不 是 Windows。 

而 全 局 变量 和 国 数 应 该 选择 包含 描述 性 内 容 的 名 称 ， 并 且 使 用 小 写字 母 ， 必 要 时 加 上 下 划 线 
区 分 单词 。 给 一 个 全 局 函数 起 名 为 atty() 会 使 人 迷惑 ; 而 像 get_active_tty0 这 样 就 比较 容易 让 人 
接受 了 。 这 里 是 Linux， 不 是 BSD。 


20.2.7 落 数 


根据 经 验 ， 函 数 的 代码 长 度 不 应 该 超过 两 屏 ， 局 部 变量 不 应 超过 10 个 。 一 个 函数 应 该 功能 
单一 并 且 实 现 精准 。 将 一 个 函数 分 解 成 一 些 更 短小 的 国 数 的 组 合 不 会 带 来 危害 ， 如 果 你 担心 函数 
调用 导致 的 开销 ， 可 以 使 用 inline 关键 字 。 


20.2.8 注释 


代码 的 注释 非常 重要 ， 但 注释 必须 按照 正确 的 方式 进行 。 一 般 情况 下 ， 你 应 该 描述 的 是 你 的 
代码 要 做 什么 和 为 什么 要 做 ， 而 不 是 具体 通过 什么 方式 实现 的 。 怎 么 实现 应 该 由 代码 本 身 展现 。 
如 果 你 不 是 这 样 做 的 ， 那 么 应 该 回 过 头 去 考虑 一 下 你 写 的 东西 了 。 此 外 ， 注 释 不 应 该 包含 谁 写 了 
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哪个 函数 、 修 改 日 期 和 其 他 那些 琐碎 而 无 实际 意义 的 内 容 。 这 些 信 息 应 该 集中 在 文件 最 开头 的 
地 方 。 

虽然 gcc 也 支持 C++ 风格 的 注释 符号 ， 但 内 核 只 使 用 C 风格 的 注释 符号 。 内 核 中 一 条 注释 
看 起 来 像 是 这 样 


* get ship speedl(}) - return the current speed of the pirate ship 
* We need this to calculate the ship coordinates.As this function can sleep, 
# do not call while holding a spinlock 


sf 
在 注释 中 ， 重 要 信息 常常 以 “XXX : ”开头 ， 而 bug 通常 以 “FIXME : ”开头 ， 就 像 : 
六 

* FIXME: We assume dog == cat Wwhich may not be true in the future 


内 核 包含 一 套 自动 文档 生成 工具 。 它 源 自 GNOME-doc， 略 加 修改 后 命名 为 Kemel-doc。 如 
果 想 要 生成 独立 的 HTML 格式 文档 ， 运 行 


make htmldocs 


如 果 想 要 postscript 格式 的 话 ， 用 下 列 命令 : 


make psdocs 
你 也 可 以 按照 特定 的 格式 对 你 的 函数 进行 往 解 ， 这 样 该 工具 也 可 以 为 你 的 函数 服务 : 


二 

* find treasure find 【其 marks the spot' 
* map treasure map 

* time - time the treasure was hidden 


二 


二 Must call while holding the pirate ship lock. 
< 
void find treasurel(lint map, struct timeval *time) 


( 
1 | 二 外 


有 关 此 方面 更 多 的 细节 请 参看 Documentation/kernel-doc-nano-HOWTO.txt 文件 。 


20.2.9 typedef 


内 核 开发 者 们 强烈 反对 使 用 typedef 语句 。 他 们 的 理由 是 : 

“ typedef 掩盖 了 数据 的 真实 类 型 。 

“由 于 数据 类 型 隐藏 起 来 了 ， 所 以 很 容易 因此 而 犯错 误 ， 比 如 以 传 值 的 方式 向 栈 中 推 人 结构 。 
* 使 用 typedef 往往 是 因为 想 要 偷懒 。 吕 


日 、 有 些 程序 员 往 往 是 为 了 少 敲打 几 次 键盘 而 使 用 typedef， 比 如 typedef unsigned char uchar。 而 这 种 缩写 可 能 会 
引发 理解 和 一 致 性 上 的 问题 ， 所 以 仅仅 出 于 此 目的 而 使 用 typedef 被 作者 视 为 同情 行为 。 一 一 译 者 福 
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无 论 如 何 ， 就 算是 为 了 别 若 人 耻 笑 吧 ， 尽 量 少 用 typedef。 

当然 ，typedef 也 有 它 施 展 身 手 的 时 候 : 当 需 要 隐藏 变量 与 体系 结构 相关 的 实现 细节 的 时 
候 ， 当 茶 种 类 型 将 来 有 可 能 发 生变 化 ， 而 现 有 程序 必须 要 考虑 到 疝 前 兼容 问题 的 时 候 ， 都 需要 
typedef。 使 用 fypedef 要 谨慎 ， 只 有 在 确实 需要 的 时 候 再 用 它 ; 如 果 仅 仅 是 为 了 少 斋 打 几 下 键盘 ， 
别 使 用 它 。 


20.2.10 ”多 用 现成 的 东西 


请 勿 闭门造车 。 内 核 本 身 就 提供 了 字符 串 操 作 函 数 、 压 缩 函数 和 一 个 链表 接口 ， 所 以 请 使 用 
它们 。 

不 要 为 了 使 现存 接口 更 通用 化 而 对 它们 进行 新 的 封装 。 你 经 常会 发 现 ， 当 把 一 段 代码 从 某 个 
操作 系统 移植 到 Linux 上 的 时 候 ， 表 面 好 像 看 起 来 根本 没什么 问题 ， 可 是 隐藏 在 接口 下 面 复杂 的 
函数 调用 却 往 往 是 与 它 原 有 的 内 核 相 关 的 。 没 人 愿意 面 对 这 些 问 题 ， 所 以 请 直接 使 用 内 核 提供 的 
接口 。 


20.2.11 在 源码 中 减少 使 用 ifdef 
我 们 不 赞成 在 源码 中 使 用 ifdef 预 处 理 指令 。 你 绝 不 应 该 在 自己 的 函数 中 使 用 如 下 的 实现 方法 : 


#ifdef CONEFIG FOO 
foo(); 
#ernidif 


相反 ， 应 该 采取 的 方法 是 在 CONFIG_FOO 没 定义 的 时 候 让 foo0 函数 为 空 。 


#ifdef CONFIG FOO 
static int foolvoid) 
| 
A 。。。 机 
} 
#else 
static inline int foolvoid) { } 
#1if /*CONFIG FOO*/ 


这 样 ， 你 在 任何 情况 下 都 能 调用 foo0 了 。 让 编译 器 去 做 这 些 工作 好 了 。 


20.2.12 ”结构 初始 化 


结构 初始 化 的 时 候 必 须 在 它 的 成 员 前 加 上 结构 标识 符 。 这 种 初始 化 能 避免 错误 地 使 用 其 他 结 
构 而 引发 一 个 初始 化 错误 。 它 也 支持 使 用 忽略 值 。 不 幸 的 是 ，C99 标准 改 用 了 一 种 丑陋 的 格式 来 
表示 这 种 标识 符 ， 于 是 gcc 就 再 也 不 支持 原来 GNU 风格 的 标识 符 了 ， 尽 管 它 看 起 来 确实 要 更 帅 
一 些 。 结 果 ， 内 核 代码 现在 必须 都 要 使 用 新 的 C99 标识 符 格式 了 ， 不 管 它 有 多 难看 : 


struct foo my foo = { 
.a = INITIAL A, 
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.b 一 INITIAL B, 
}s 
其 中 a 和 bb 是 结构 体 foo 的 成 员 ， 而 INITIAL A 和 INITIAL B 是 它们 对 应 的 初始 值 。 如 果 
一 个 字段 没有 给 初始 值 ， 那 么 它 就 会 被 设置 为 ANSI C 规定 的 默认 值 (如 指针 被 设 为 NULL， 整 
型 被 设 为 0， 淫 点 数 被 设置 为 0.0)。 举 例 来 说 ， 如 果 foo 结构 体 还 有 一 个 int 型 的 < 成员， 那么 
上 面 的 初始 化 语句 执行 之 后 c 会 被 设置 为 0。 


20.2.13 ”代码 的 事后 修正 


即使 你 得 到 了 一 段 与 内 核 编码 风格 风 马 牛 不 相 及 的 代码 ， 也 不 用 发 悉 。 只 请 抬 抬 手 ，indent 
工具 就 能 帮 你 解决 它 。indent 是 一 个 在 大 多 数 Linux 系统 中 都 能 找到 的 好 工具 ， 它 可 以 按照 指定 
的 方式 对 源 代码 进行 格式 化 。 默 认 情况 下 它 按照 不 怎么 好 看 的 GNU 编码 风格 格式 化 代码 。 想 要 
用 Linux 内 核 编码 风格 ， 执 行 下 列 命令 : 


indent -kr -i8 -ts8 -gob -180 -ss -bs -psl <file> 


这 样 就 能 调用 该 工具 按 内 核 编 码 风 格 对 你 的 代码 进行 格式 化 了 。 此外， 还 可 以 通过 scripts/ 
Lindent 自动 按照 所 需 的 格式 调用 indent。 


20.3 ”管理 系统 


内 核 黑 客 就 是 那些 从 事 内 核 开 发 工作 的 人 。 做 这 些 工 作 有 些 人 是 因为 钱 ， 有 些 人 是 因为 嗜 
好 ， 但 几乎 所 有 人 都 是 为 了 从 中 找到 快乐 。 所 有 做 出 卓越 贡献 的 黑客 都 能 在 源 代 码 树 根 目 孙 上 的 
CREDITS 文件 中 留 名 。 

内 核 中 几乎 每 个 部 分 都 对 应 一 个 维护 者 。 维 护 者 是 指 一 个 或 几 个 对 内 核 特定 部 分 负责 的 人 。 
比如 ， 每 个 单独 的 驱动 程序 都 对 应 一 个 维护 者 。 每 个 内 核子 系统 (如 网 络 ) 也 有 一 个 维护 者 。 驱 
动 程序 和 子 系统 的 维护 者 也 能 在 源 代码 树 根 目 录 上 的 MAINTAINERS 文件 中 找到 。 

还 有 一 类 特殊 的 维护 者 称 作 内 核 维护 者 。 这 些 人 负责 维护 的 实际 上 就 是 代码 树 本 身 。 以 前 ， 
由 Linus 自己 负责 维护 开发 版 的 内 核 〈 乐 趣 尽 在 此 中 )， 稳 定 版 最 开始 的 一 段 时 间 也 由 他 来 维护 。 
等 到 该 内 核 稳定 下 来 了 ， 他 就 会 把 火炬 传递 给 最 好 的 内 核 开 发 者 中 的 一 些 人 手 上 ， 由 这 些 人 负责 
维护 该 代码 树 ， 而 Linus 会 转身 启动 下 一 开发 版 本 的 内 核 开 发 工作 。 在 2.6 内 核 继续 保持 稳定 的 
“新 世界 秩序 ”前 提 下 ，Linus 仍然 维护 着 2.6 系列 的 内 核 。 另 外 的 开发 者 以 严格 的 “发 现 bug- 
修订 bug” 模 式 维 护 2.4 系列 内 核 。 


20.4 ”提交 错误 报告 


如 果 碰 到 了 一 个 bug， 最 理想 的 应 对 无 疑 是 写 出 修正 代码 ， 创 建 补丁 ， 测 试 后 提交 和 它 ， 这 个 
流程 在 20.5 节 会 仔细 介绍 。 当 然 ， 也 可 以 报告 这 个 问题 ， 然 后 让 其 他 人 替 你 解决 。 

提交 一 个 错误 报告 最 重要 的 莫 过 于 对 问题 进行 清楚 的 描述 。 要 讲 清 楚 症 状 、 系 统 输出 信息 、 
完整 并 经 过 解码 的 oops (如 果 有 的 话 )。 更 重要 的 是 ， 你 应 该 尽 可 能 地 提供 能 够 准确 地 重 现 这 个 
错误 的 步骤 ， 并 提供 你 的 机 器 的 硬件 配置 基本 信息 。 
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然后 再 来 考虑 把 这 个 错误 报告 发 送 给 谁 。 在 内 核 源 代 码 书 的 根 目 录 中 ，MAINTAINERS 文 
件 列举 出 了 每 个 相关 的 设备 驱动 程序 和 子 系统 的 单独 信息 一 一 接收 关于 其 所 维护 的 代码 的 所 有 问 
题 。 如 果 找 不 到 对 此 问题 感 兴趣 的 人 ， 那 么 就 把 它 报告 给 位 于 linux-kernel@vger.kernel.org 的 内 
核 邮件 列表 。 即 使 你 已 经 找到 维护 者 了 ， 贴 一 份 副 本 在 那里 也 不 会 有 什么 坏处 。 

文档 REPORTING-BUGS 和 Documentation/oops-tracing.txt 中 有 更 多 相关 信息 。 


20.5 补丁 


对 内 核 的 任何 修改 都 是 以 补丁 的 形式 发 布 的 ， 而 补丁 其 实 是 GNU diff(1) 程序 的 一 种 特定 格 
式 的 输出 ， 读 格式 的 信息 能 够 被 patch(1) 程序 接受 。 


20.5.1 创建 补丁 


创建 补丁 最 简单 的 办 法 是 通过 两 份 内 核 源 代码 进行 ， 一 份 源码 ， 另 一 份 是 加 进 了 所 修改 部 分 
的 源 代码 。 一 般 会 给 原来 的 内 核 代 码 起 名 linux-x.y.z (其 实 就 是 把 源 代码 包 解 压缩 后 所 得 到 的 文 
件 夹 )， 而 修改 过 的 就 起 名 为 linux。 然 后 利用 下 面 的 命令 通过 这 两 份 代码 创建 补丁 : 


diff -urN linux-x.yY.2/ linux/ > my-patch 


你 可 以 在 自己 的 目录 下 运行 该 命令 ， 一 般 都 是 在 home 目录 下 ， 而 不 是 在 /usrsrc/linux 目录 
下 进行 这 种 操作 ， 所 以 不 一 定 必 须 具 备 超 级 用 户 权 限 。 通 过 -u 参数 指定 使 用 特殊 的 diff 输出 格 
式 。 否 则 得 到 的 patch 格式 怪异 ,一般人 都 无 法 看 懂 。-r 参数 保证 会 壳 历 所 有 子 目 录 进 行 操作 ， 
而 -N 参数 指明 做 出 修改 的 源 代码 中 所 有 新 加 入 的 文件 在 由 任 操作 时 会 包含 在 内 。 另 外 ， 如 果 想 
对 一 个 单独 的 文件 进行 出 年， 你 也 可 以 这 么 做 : 


diff -u linux-x.YyY.2/some/ifile linux/some/file > my-patch 


广 意 ， 在 你 自己 代码 所 在 的 目录 下 执行 di 在 很 重要 。 这 样 创 建 的 补丁 别人 用 起 来 更 方便 ， 哪 
怕 他 们 的 目录 名 字 叫 differ 也 没 问 题 。 执 行 一 个 这 样 生成 的 补丁 ， 只 需要 在 你 自己 代码 树 的 根 目 
录 执 行 下 列 命令 就 可 以 了 : 


patch -pl < .../my-patch 


在 这 个 例子 中 ， 补 丁 的 名 字 叫 my-patch， 它 位 于 当前 目录 的 上 一 级 目录 中 。-pl 参数 用 来 剥 
去 补丁 中 头 一 个 目录 的 名 称 。 这 么 做 的 好 处 是 可 以 在 打 补 丁 的 时 候 忽 上 略 创建 补丁 的 人 的 目录 命名 
习惯 。 

diffstat 是 一 个 很 有 用 的 工具 ， 它 可 以 列 出 补丁 所 引起 的 变更 的 统计 《加 入 或 移 去 的 代码 
行 )。 输 出 关于 补丁 的 信息 ， 执 行 : 


diffstat -pl my-patch 


在 辣 kml 贴 出 自己 的 补丁 时 ， 附 带 上 这 份 信息 往往 会 很 有 用 。 由 于 patch(1) 会 忽略 第 一 个 
di 全 之 前 的 所 有 内 容 ， 所 以 你 其 至 可 以 在 patch 的 最 前 面 直接 加 上 简短 的 说 明 。 
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20.5.2 用 Git 创建 补丁 


如 果 你 用 Git 管理 源 代码 树 ， 你 照样 需要 用 Git 创建 补丁 一 一 也 就 是 没有 必要 按部就班 地 把 
上 述 手工 的 步骤 操作 一 遍 ， 但 是 你 需要 忍受 Git 的 复杂 性 。 用 Git 创建 补丁 并 不 是 什么 难事 ， 只 
需要 两 个 过 程 。 首 先 ， 你 必须 是 修改 者 ， 然 后 在 本 地 提交 你 的 修改 。 把 修改 提交 到 Git 树 与 提交 
到 标准 的 源 代码 树 并 没有 什么 两 样 。 你 根本 不 需要 专门 做 任何 事情 去 编辑 存放 在 Git 中 的 文件 。 
你 做 出 修改 后 ， 就 需要 把 所 做 的 修改 提交 到 你 的 Git 版 本 库 : 


git commit -a 


-a 参数 表示 提交 所 有 的 修改 。 如 果 你 仅仅 想 提 交 某 个 指定 文件 的 修改 ， 则 如 下 示例 : 


9git commit some/file.c 


但 是 即使 有 了 -a 参数 ，Git 并 不 立即 提交 新 文件 ， 直 到 把 它们 添加 到 版 本 库 中 才 提 交 。 要 增 
加 一 个 文件 ， 然 后 再 提交 (以 及 其 他 所 有 的 修改 )， 则 输入 如 下 两 条 售 令 : 


git add some/other/file.c 

git commit -a 

当 执 行 Git 的 commit 命令 时 , Git 会 要 求 输 入 一 个 更 改 日 志 。 你 应 该 尽量 填写 的 详细 和 完整 ， 
清楚 地 解释 修改 缘由 。( 我 们 将 在 20.5.3 市 里 详细 介绍 修改 日 志 里 应 该 包含 什么 ) 你 可 以 针对 你 
的 版 本 库 创建 多 个 提交 。Git 的 设计 可 谓 考 虑 周全 ， 多 个 提交 甚至 可 以 针对 同一 文件 ， 每 个 提交 
的 创建 各 自 独 立 。 当 在 源码 树 中 有 一 个 《或 两 个 ) 提交 时 ， 可 以 为 每 个 提交 创建 一 个 补丁 ， 可 以 
像 20.5.1 节 所 描述 的 那样 来 处 理 这 个 补丁 : 


git format-patch origin 


对 于 所 有 的 提交 ， 这 样 产生 的 补丁 放 在 你 的 版 本 库 中 而 不 是 原始 树 中 。Git 产生 的 补丁 位 于 
源 代码 树 的 根 目录 中 。 如 果 只 想 为 最 后 第 N 次 提交 产生 补丁 ， 则 可 以 执行 下 列 命令 : 


git format-patch -N 


例如 ， 下 面 的 命令 只 为 最 后 一 次 提交 产生 一 个 补丁 : 


git format-patch -1 
20.5.3 提交 补丁 


补丁 可 以 按照 20.5.2 节 描 述 的 方式 创建 。 如 果 补 丁 竺 及 了 某 个 特定 的 驱动 程序 或 子 系统 ， 
应 该 把 它 发 给 MAINTAINER 中 列举 的 相关 部 分 的 维护 者 。 此 外 ， 还 应 该 向 Linux 内 核 邮 件 列 表 
linux-kemel@vger.kernel.org 发 送 一 份 拷贝 。 只 有 在 经 过 广泛 的 讨论 之 后 ， 或 者 是 补丁 所 做 的 修 
改 很 细微 并 且 很 容易 就 能 保证 正确 的 时 候 ， 才 应 该 向 内 核 维护 者 .比如 说 Linus) 提交 。 

一 般 包含 一 份 补丁 的 邮件 ， 它 的 主题 一 栏 内 容 应 该 以 “[PATCH] 简要 说 明 ” 的 格式 写 出 。 
邮件 的 主体 部 分 应 该 描述 所 做 的 改变 的 技术 细节 ， 以 及 要 做 这 些 的 原因 ， 越 详细 越 准 确 越 好 。 在 
E-mail 中 还 要 注 明 补丁 对 应 的 内 核 版 本 。 

内 核 开 发 者 们 都 希望 能 通过 邮件 阅读 补丁 ， 并 且 能 够 将 其 保存 为 一 个 单独 文件 。 因 此 ， 最 好 
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把 补丁 直接 插入 邮件 ， 放 在 所 有 信息 的 最 后 。 还 要 小 心 一 些 ， 差 劲 的 邮件 客户 端 工具 ， 它 们 会 加 
入 信息 或 者 改变 邮件 的 格式 ; 这 会 导致 补丁 出 错 ， 从 而 引起 其 他 开发 者 的 不 满 。 如 果 你 用 的 邮件 
客户 端 工具 也 有 类 似 表现 ， 就 检查 一 下 ， 看 它 是 否 有 “Insert Inline”"、“Preformat” 或 类 似 功 能 。 
如 果 有 的 话 ， 就 用 纯 文 本 方式 把 你 的 补丁 贴 到 邮件 上 作为 附件 ， 不 要 对 它 做 什么 编码 工作 。 

如 果 你 的 补丁 很 大 或 者 包含 对 几 个 不 同 的 逻辑 的 修改 ， 那 么 应 该 将 你 的 补丁 分 成 几 块 ， 每 块 
对 应 一 个 逻辑 。 比 如 你 在 补丁 中 引入 了 一 个 新 的 API， 并 且 同 时 对 几 个 驱动 程序 进行 了 修改 以 便 
利用 它 ， 那 么 应 该 把 该 补丁 一 分 为 二 (先是 新 的 API， 然 后 是 对 驱动 程序 的 修改 )， 邮 件 也 写成 
两 份 。 如 果 任 何 一 个 部 分 需要 其 他 的 补丁 先行 ， 要 明确 地 注 明 这 一 点 。 

提交 之 后 ， 保 持 耐心 ， 等 待 答复 。 别 因为 某 些 反对 言论 而 灰心 一 一 至 少 你 还 是 得 到 问 应 了 
嘛 ! 和 其 他 人 讨论 这 个 问题 并 且 在 需要 的 时 候 应 该 提交 修正 过 的 新 补丁 。 如 果 你 压根 就 没 听 到 回 
声 ， 想 想 是 什么 出 了 问题 ， 然 后 着 手 解决 它 。 多 请 邮件 列表 和 维护 者 们 提出 宝贵 意见 。 运 气 好 的 
话 ， 未 来 版 本 的 内 核发 行 时 ， 你 可 能 就 会 看 到 自己 做 出 的 修改 了 一 一 那 可 就 真 的 该 磋 喜 你 了 ! 





20.6 小结 


对 于 黑客 而 言 ， 最 可 贵 的 品质 便 是 渴望 一 一 就 如 身上 痒痒 ， 不 抓 不 快 一 般 的 渴望 和 决心 。 本 
书 讲述 了 Linux 内 核 的 主要 部 分 ， 讨 论 了 接口 、 数 据 结构 、 算 法 和 原理 。 它 从 实践 出 发 ， 以 内 在 
的 视角 洞悉 内 核 ， 既 可 以 满足 你 的 好 奇 心 ， 也 可 以 帮助 你 开始 学 习 内 核 。 

不 过 ， 正 如 我 前 面 所 说 ， 你 上 路 的 唯一 方法 是 去 目 己 谈 、 写 代码 。Linux 社区 不 但 创造 了 这 
样 的 条 件 ， 而 且 很 欢迎 大 家 这 么 做 。 好 了 ， 不 管 你 追求 什么 ， 现 在 就 开始 去 做 吧 。 


在 这 里 列 出 的 书籍 是 对 本 书 内 容 的 补充 。 注 意 ， 本 书 最 好 的 “课外 阅读 ”参考 资料 就 是 内 核 
源 代码 。 作 为 Linux 的 使 用 者 ， 我 们 被 赋 子 无 限制 地 获得 全 部 现代 操作 系统 源 代码 的 权利 。 别 把 
这 当做 是 理所当然 的 ， 不 要 县 除 天 物 ， 要 汪 心 钻研 它 。 


操作 系统 设计 书籍 


这 些 书 覆 盖 了 操作 系统 设计 领域 ， 常 作为 大 学 教科 书 。 它 们 包含 设计 一 个 功能 健全 的 操作 系 
统 所 需要 的 概念 、 算 法 、 回 题 和 解决 方法 。 我 推荐 列 出 的 所 有 书籍 ， 如 果 非 得 我 选择 一 本 ， 那 么 
Deitel 的 书 既 易 理 解 又 有 趣 本 起 ， 它 是 我 的 首选 。 

H. Deitel、 P. Deitel [以 及 D. Choffnes 的 《Operating Systems》，Prentice Hall，2003。 该 书 对 
操作 系统 的 原理 进行 了 透彻 讲述 ， 并 且 列 出 了 很 多 出 色 的 实例 研究 ， 适 合 把 理论 付 之 于 实践 。 

Tanenbaum，Andrew 的 (Modern Operating Systems》，Prentice Hall，2007。 该 书 深 刻 揭 示 
了 标 崔 操作 系统 设计 精髓 ， 其 中 也 不 乏 讨 论 许 多 今天 流行 的 现代 操作 系统 ， 如 Unix 和 Windows。 

Tanenbaum, Andrew 的 《Operating Systems : Design and Implementation》，Prentice 
Hall，2006。 该 书 精辟 地 介绍 了 如 何 设 计 和 实现 一 个 类 Unix 操作 系统 一 一 Minix。 

Silberschatz A.、P Galvin 和 G. Gagne 的 《Operating System Concepts}, John Wiley and Sons, 
2008。 由 于 该 书 封面 图 片 看 走 来 和 蕊 龙 有 关 ， 所 以 也 被 称 为 “已 龙 宝典 ”。 这 是 一 本 介绍 操作 系 
统 设计 的 好 书 ， 而 且 频 第 再 扩 ， 版 版 经 典 。 


Unix 内 核 书 籍 


这 些 书 主要 针对 Unix 册 核 设计 与 实现 ， 前 五 本 讨论 Unix 特定 版 本 ， 后 两 本 关注 所 有 Unix 
版 本 的 通用 特点 。 如 果 你 只 美 其 中 的 两 本 ， 那 么 我 坚持 推荐 最 后 两 本 : 

Bach，Maurice 的 《The Design of the Unix Operating System》，Prentice Hall，1986。 这 是 一 
本 讨论 Unix 系统 V2 版 本 的 化 秀 书籍 。 

McKusick M.、 K. Bostit, M. Karels 和 J.Quarterman 的 《The Design and Implementation of 
4.4BSD Operating System}，Addison-Wesley,1996。 操 作 系 统 设计 者 自己 编写 的 讨论 设计 4.4BSD 
系统 的 优秀 书籍 。 

McKusick, M. 和 G. Nenille-Neil 的 《The Design and Implementation of the FreeBSD Operating 
System》，Addison-Wesley, 204。 这 是 一 本 讨论 FreeBSD 5.2 系统 设计 与 实现 的 优秀 书籍 。 

McDougall, R 和 J. Mawo 的 《Solaris Internals: Solaris and OpenSolaris Kemel Architecture》， 
Prentice Hall，2006。 这 是 一 本 对 Solaris 内 核 的 核心 子 系统 和 算法 进行 精彩 讨论 的 优秀 书籍 。 
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Cooper C. 和 C. Moore 的 《HP-UX 11i Internals》，Prentice Hall，2004。 这 本 书 对 HP-UX 和 
PA-RISC 体系 结构 的 内 幕 进行 了 初探 。 

Vahalia, Uresh 的 《Unix Internals:The New Frontiers》，Prentice Hall，1995。 这 是 一 本 关于 
现代 Unix 系统 特色 的 优秀 书籍 ， 主 要 介绍 了 线程 管理 和 内 核 抢 占 等 功能 。 

schimmel, Curt 的 《UNIX Systems for Modern Architectures:Symmetric Multiprocessing and 
Caching for Kernel Programmers》，Addision-Wesley，1994。 访 书 揭示 了 在 现代 体系 结构 上 实现 现 
代 Unix 操作 系统 可 能 要 面 对 的 种 种 危险 。 强 烈 推 荐 阅读 这 本 图 书 。 


Linux 内 核 书 籍 

以 下 书籍 与 本 书 一 样 讨论 Linux 内 核 。 有 点 可 惜 的 是 ， 这 方面 的 好 书 不 多 。 不 过 ， 我 推荐 阅 
读 下 列 两 本 。 

Benvenuti, Christian 的 《Understanding Linux Network Internals), O’Reilly and Associates, 
2005。 这 本 书 对 Linux 网 络 进行 了 深入 分 析 。 

Corbet, J. 、A. Rubini 和 G. Kroah-Hartman 的 《Linux Device Drivers), O’Reilly and 
Associates，2005。 这 本 书 讨论 了 在 2.6 内 核 上 如 何 编写 驱动 程序 ， 尤 其 是 针对 各 种 设备 重点 描述 
了 所 支持 的 编程 接口 ， 这 是 一 本 经 典 的 介绍 编写 驱动 程序 的 图 书 。 


关于 其 他 系统 的 内 核 书 


了 解 你 的 敌人 一 一 错误 和 竞争 对 手 一 一 才能 处 于 不 败 之 地 。 下 列 书籍 讨论 了 非 Linux 系统 的 
设计 与 实现 。 你 可 以 从 中 获得 经 验 或 教训 。 

Kogan M. 和 H. Deitel 的 《The Design of OS/2》, Addison-Wesley, 1996。 该 书 介 绍 了 OS/2 2.0 
的 设计 。 

Singh，Amit 的 《Mac OS X Internals : A Systems Approach}, Addison-Wesley Professional, 
2006。 该 书 对 整个 Mac OS X 系统 进行 了 完整 论述 ， 既 有 深度 又 有 广度 。 

Solomon，D. 和 M，Russinovich 的 《Windows Intemals : Covering Windows Server 2008 and 
Windows Vista》，Microsoft Press，2009。 这 是 一 本 介绍 非 Unix 操作 系统 的 有 趣 书 籍 。 


关于 Unix API 的 书籍 


深入 探索 Unix 系统 的 API 函数 不 仅 对 编写 优秀 的 用 户 空间 应 用 程序 很 关键 ， 同 时 也 对 理解 
内 核 功能 大 有 帮助 。 

Love，Robert 的 《Linux System Programming》，O"'Reilly and Associates，2007。 该 书 作 者 负 
责 Linux 的 系统 级 编程 ， 该 书 涵 盖 了 Linux 系统 调用 以 及 libc API 等 内 容 ， 并 对 Linux 所 具有 的 
一 些 技巧 和 方式 给 予 关注 。 

Stevens W. R. 和 S$.Rago 的 《Advanced Programming in the UNIX Environment », Addison- 
Wesley，2008。 该 书 是 讨论 Unix 系统 调用 接口 的 权威 书籍 。 

Stevens W. Richard 的 《UNIX Network Programming Volume 1》，Prentice Hall，2004。 这 是 
一 本 关于 Unix 系统 套 接 字 API 的 经 典 教材 。 
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关于 C 语言 编程 的 书 

Linux 内 核 以 及 Linux 系统 的 其 他 很 多 软件 都 是 用 C 语言 编写 的 。 下 列 两 本 书 值得 推荐 
阅读 ， 

Kernighan B. 和 D.Richie 的 《IThe C Programming Language》，Prentice Hall，1988。 这 是 一 
本 介绍 C 语言 编程 的 权威 书籍 ， 由 C 的 发 明 者 及 其 合作 者 编写 。 

van der Linden，Peter 的 《Expert C Programming》，Prentice Hall，1994。 读 书 对 不 易 理 解 的 
C 细节 给 予 了 难能可贵 的 讨论 ， 作 者 的 语言 风趣 幽默 。 


其 他 书籍 


下 面 的 书籍 严格 说 可 能 和 操作 系统 无 关 ， 但 是 这 些 书 无 疑 从 某 些 层面 影响 了 操作 系统 。 

Hofstadter，Douglas 的 《G "del, Escher, Bach : An Eternal Golden Braid 》，Basic Books, 
1999。 这 是 一 本 对 人 类 思想 进行 深刻 研究 的 必 备 书籍 ， 它 的 内 容 覆 盖 众 多 主题 ， 其 中 也 包含 计算 
机 科学 。 

Knuth, Donald 的 《The Art of Computer Programming，Volume 1》，Adderson-Wesley， 
1997。 这 是 一 本 无 价 的 介绍 计算 机 科学 算法 的 基础 书籍 ， 其 中 介绍 了 内 存 管理 中 的 最 佳 适应 算法 
和 最 坏 适 应 算法 。 


Web 站 点 


Kermnel.org。 内 核 代码 库 的 官方 站 点 ， 同 时 也 容纳 了 核心 内 核 黑客 的 大 量 补丁 包 。 网 址 是 : 
http://www.kernel.org 

Linux Weekly News。 出 色 的 新 闻 站 点 ， 对 一 周 Linux (包括 内 核 ) 所 发 生 的 新 闻 给 予 鹤 智 、 
准确 的 评论 。 强 烈 推 荐 训 览 。 网 址 是 : www.lwn.net。 

OS 新 闻 。 包 括 关 于 操作 系统 的 新 闻 ， 也 包括 原创 文章 、 访 谈 以 及 reviews.www.osnews. 


COmMm., 


本 书 详细 描述 了 Linux 内 核 的 设计 与 实现 。 内 核 代 码 的 编写 者 、 开 发 者 以 及 
程序 开发 人 员 都 可 以 通过 阅读 本 书 受 益 ， 他 们 可 以 更 好 地 理解 操作 系统 原理 ， 并 
将 其 应 用 在 自己 的 编码 中 以 提高 效率 和 生产 率 。 

本 书 详细 描述 了 Linux 内 核 的 主要 子 系统 和 特点 ， 包 括 Linux 内 核 的 设计 、 实 
现 和 接口 ， 从 理论 到 实践 涵盖 了 Linux 内 核 的 方方面面 ， 可 以 满足 读者 的 各 种 兴 
趣 和 需求 。 

作者 是 一 位 Linux 内 核 核心 开发 人 员 ， 他 分 享 了 在 开发 Linux 2.6 内 核 过 程 中 
颇具 价值 的 知识 和 经 验 。 本 书 的 主题 包括 进程 管理 、 进 程 调度 、 时 间 管 理 和 定时 
器 、 系 统 调 用 接口 、 内 存 寻 址 、 内 存 管 理 和 页 缓存 、VFS、 内 核 同 步 、 移 植 性 相 
关 的 问题 以 及 调试 技术 。 同 时 本 书 也 涵盖 了 Linux 2.6 内 核 中 颇具 特色 的 内 容 ， 包 
括 CFS 调 度 程序 、 抢 占 式 内 核 、 块 VODO 层 以 及 ID 调度 程序 。 


本 书 新 增 内 容 包 括 : 

@@ 增加 一 章 专门 描述 内 核 数 据 结构 ( 第 6 章 ) ; 

@ 详细 描述 中 断 处 理 程序 和 下 半 部 机 制 ; 

@@ 扩充 虚拟 内 存 和 内 存 分 配 的 内 容 ; 

@@ 调试 Linux 内 核 的 技巧 ; 

多 内 核 同步 和 锁 机 制 的 深度 描述 ; 

@@ 提交 内 核 补丁 以 及 参与 Linux 内 核 社 区 的 建设 性 建议 。 
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